重複値を削除
カラム分析のプロファイリング結果は、メールと電話番号のカラムに重複レコードがあることを示しています。詳細は、分析結果を表示をご覧ください。
分析結果から、選択したカラム内のユニークなレコードと重複レコードを区別する標準ジョブを生成できます。そのジョブは、デフォルトでリジェクト区切り付きファイル内の重複をすべて出力し、分析で使用されるデータベースに一意値を書き込みます。
同じ手順を使って、メールまたは電話番号のカラムからも重複値を除去できます。
始める前に
-
Talend StudioでProfilingパースペクティブを開いていること。
-
カラム分析を作成し、実行済みであること。詳細は、データの異常を識別をご覧ください。
手順
タスクの結果
重複値は出力ファイルに書き込まれ、ユニークなレコードはMySQL内のgettingstartedデータベースの新しいテーブルに書き込まれます。