tMatchPredictによってラベル付けされたサスペクトペアとtMatchPairingによって計算された一意な行からクリーンなデータセットを作成する
このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。
この例では、以下の入力データの2つのソースを使用します:
-
tMatchPredictによって重複としてラベル付けされ、グルーピングされた疑わしいレコード。
疑わしいペアに指定のラベルを付ける方法のサンプルは、 疑わしいペアに指定のラベルを付けるをご覧ください。
-
ユニーク行がtMatchPairingによって計算されます。
ソースデータから一意の行を計算する方法の例は、ソースデータの疑わしいペアと疑わしいサンプルを計算および疑わしいペアを計算してにサンプルを書き込むをご覧ください。
このユースケースでは以下の2つのサブジョブが使用されます:
-
最初のサブジョブでは、tMatchPredictによって重複のラベルが付けられ、グルーピングされたレコードがtRuleSurvivorshipによって処理され、各重複グループについて単一のレコードが残されます。
-
2番目のサブジョブでは、tUniteにより残ったレコードと一意な行がマージされ、クリーンで重複除去されたデータセットが作成され、tMatchIndexコンポーネントで使用されます。
出力ファイルにはクリーンで重複除去されたデータが含まれます。この参照データセットはtMatchIndexコンポーネントを使用して、ElasticSearchでインデックス化できます。