重複値の削除
シンプル統計インジケーターを使ってemailカラムとpostalカラムを分析したら、分析結果にカラム内の重複レコード数が示されます。分析結果から既製ジョブを生成できます。このジョブにより、選択したカラムから重複値が除去されます。
同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。
手順
タスクの結果
重複値は、指定した出力ファイルに書き込まれます。
次のタスク
同じ手順を使って、postalカラムからも重複値を除去できます。
Profilingパースペクティブを使って破損、不完全、不正確なデータを特定して削除する方法は、Talend Studioユーザーガイドのデータクレンジングをご覧ください。