データをクレンジング
顧客データをプロファイリングし、問題を特定したら、次にデータをクレンジングする必要があります。たとえば、Talendで2つのジョブを生成し、1つのジョブでemailカラムから重複を除去し、もう1つのジョブではメールパターンに一致しない値を除去するといったことができます。
これにより、解決すべき問題を見極めることができ、その問題を解決するために使用するツールを決定できます。
重複値を削除
シンプル統計インジケーターを使ってemailカラムとpostalカラムを分析したら、分析結果にカラム内の重複レコード数が示されます。分析結果から既製ジョブを生成できます。このジョブにより、選択したカラムから重複値が除去されます。
同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。
Procedure
Results
重複値は、指定した出力ファイルに書き込まれます。
What to do next
同じ手順を使って、postalカラムからも重複値を除去できます。
Profilingパースペクティブを使って破損、不完全、不正確なデータを特定して削除する方法は、Talend Studioユーザーガイドのデータクレンジングをご覧ください。
一致しない値を除去
emailカラムで使用したメールパターンでは、一部のレコードが標準のメール形式に準拠していないことが示されました。既製ジョブを生成して、カラムから一致しない行を取り出すことができます。
Procedure
Results
emailカラムの有効な行および無効な行が、定義した出力ファイルに書き込まれます。
出力ファイルを別のTalendコンポーネントに置き換えて、有効なメール行または無効なメール行を取り出し、データベースに書き込むこともできます。
Profilingパースペクティブを使って破損、不完全、不正確なデータを特定して削除する方法は、Talend Studioユーザーガイドのデータクレンジングをご覧ください。