フィルターを使った、顧客データ上での"if"条件の作成
video_customers.xlsxデータセットには、動画ストリーミング会社の米国の顧客に関する情報を持つサンプルが含まれています。名前、州、年齢、サブスクリプション日などがこのファイルにリストされています。
"if"条件のように動作する複数のフィルターを組み合わせると、特にターゲットにしたい顧客カテゴリーに対してクレンジング処理を実行できます。この例では、30~55歳の年齢層で、登録された顧客数が最も多い5つの米国の州の顧客をリストすると同時に、使用できないデータを排除したファイルを出力します。
video_customers.xlsxファイルをダウンロードします。
video customersデータセットのプレパレーションの追加
プレパレーションを追加し、データの準備とクレンジングを開始します。
Talend Data Preparationで既に使用可能になっているデータセットまたはローカルファイルからプレパレーションを作成できます。対応するボタンでプレパレーションを追加すると、現在作業しているフォルダーにプレパレーションが作成されます。また、プレパレーションはプレパレーションリストに自動的に保存され、変更した内容もすべて自動的に保存されます。
Before you begin
Procedure
Results
レシピが空のデータセットが開くので、プレパレーションステップの追加を開始します。変更した内容はすべて自動的に保存されます。
空のレコードと無効なレコードの削除
クオリティバーは、カラムに空のレコードまたは無効なレコードが含まれているかどうかを示します。
カラムタイプに一致するデータはクオリティバーで緑で表示されます。赤の場合、カラムタイプに一致しない無効なデータを示します。空のレコードはグレーで表示されます。
特定の年齢範囲と州の顧客に注目する必要があるので、該当するカラムの空のデータは要りません。操作は簡単で、age (年齢)とstate (州)のカラムの空のデータと無効な値をデータセットから削除するだけです。
Procedure
Results
age (年齢)、state (州)、phone numbers (電話番号)のカラムの空の値または無効な値を持つ行が削除されます。データセットから余分なデータがある程度取り除かれたので、重要なデータに集中して取り組めます。
年齢と州へのフィルターの作成
フィルターを作成すれば、データをすばやく識別および隔離できます。
ここでもフィルターを使って、この例で最も重要なデータ、つまり、顧客の年齢と居住地を隔離します。インターフェイスの右下にあるデータプロファイリングエリアでは、[age] (年齢)カラムと[state] (州)のカラムのデータを示すチャートを操作して、特定のデータ範囲を選択できます。
Procedure
Results
サンプルでは、設定した条件を満たす顧客だけのリストが表示されます。
特定の顧客範囲のデータをエクスポート
作業対象のデータが隔離され、クレンジングされたので、ローカルファイルとしてエクスポートできます。
フィルターを使用することで、データに対して条件付き操作を実行しました。特定の州の35~50歳の顧客に適用されたデータだけが維持されます。準備したデータセットがエクスポート可能な状態になりました。
Procedure
- [Export] (エクスポート)ボタンをクリックします。
-
データのエクスポートで使う形式を選択します:
- [Local CSV file] (ローカルCSVファイル)を選択した場合は、使用するフィールド区切り、テキスト囲み文字、およびエスケープ文字を選択し、エクスポートするファイルの名前を入力します。
- [Local XLSX file] (ローカルXLSXファイル)を選択する場合は、エクスポートするファイルの名前を入力します。
- Amazon S3を選択する場合は、認証情報とその他の情報を入力して、ファイルをAmazon S3に保存します。
Results
プレパレーションを使ってクレンジングしたデータがローカルファイルにエクスポートされます。