データを重複除去するジョブの作成
Talend Studioメタデータの特定のファイルにあるデータを重複除去する既製ジョブを生成できます。この自動生成ジョブのコンポーネント設定を使用して、2つの個別のファイルまたはデータベースに重複値およびユニークな値を出力するように選択できます。
特定のファイルのデータを重複除去するステップは次のとおりです。
- 重複除去するファイルを選択します。
- 重複除去ジョブを実行するカラムを選択します。
- 必要に応じて、ブロッキングキーを定義して処理対象のデータを分割します。ブロッキングキーは、通常、ファイルに大量のデータが存在する場合に必要になります。
- ユニークなレコードおよび重複レコードを書き込む場所を選択します。
- 生成されたジョブを実行します。
手順
タスクの結果
ファイルの一意値および重複値が特定され、指定された出力ファイルまたはデータベースに保存されます。生成されたジョブは、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードの下に保存されます。