サバイバーシップ機能を使用して2つのレコードをマージし、マスターレコードを作成する
このシナリオでは、T-Swooshアルゴリズムを使用して顧客名に重複を見つける基本的なジョブについて説明します。マッチングメソッドおよびサバイバーシップメソッドを使用してfirst_nameカラム内の値を比較し、類似するレコードをグルーピングし、サバイバーシップルールに従って2つの類似するレコードをマージすることで、各グループ内のエンティティの単一表記を作成します。
これらのマスターレコードは、入力データ内に存在しない新しいレコードです。
ジョブ内にT-Swooshアルゴリズムを使用し、複数のマッチングパスを使用できます。各パスは各グループに生き残ったマスターを、2番目のパスに元のレコードを提供します。ただし、中間マスターレコードは出力フローから削除されます。最後のマスターと元のレコードだけが最後に保管されます。
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このタスクについて
このジョブでは次のように処理されます:
- tFileInputDelimitedコンポーネントは、処理する顧客レコードを提供します。
-
tMatchGroupコンポーネントは、マッチングメソッドおよびサバイバーシップメソッドを使用してデータを処理します。
- tLogRowコンポーネントは、マッチング結果とサバイバーシップの結果を示します。
ジョブを設定
このタスクについて
このシナリオでは、メインの入力スキーマは[Repository] (リポジトリー)に既に保存されています。リポジトリーにスキーマメタデータを保管する方法は、Talend Studioでメタデータを管理をご覧ください。
手順
入力コンポーネントを設定
このタスクについて
メイン入力ファイルには次のカラムが含まれています: id、first_name、およびage。この入力ファイル内のデータには、重複、名前のスペルの相違や間違い、同一顧客に異なる情報など、問題があります。