重複グループからの最良データの選択によるサバイバーの作成
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオのジョブでは、重複データをグルーピングし、重複した表現を1つにします。プロセスで最終的に選択されるこの表現は「サバイバー」と呼ばれ、このサバイバーを使用して、MDMデータのマスターコピーなどを作成できます。
このジョブで使用されるコンポーネントは、以下のとおりです:
-
tFixedFlowInput: このジョブによって処理される入力データを提供します。実際のユースケースでは、関連する別の入力コンポーネントを使用して、tFixedFlowInputを置き換えることにより必要なデータを提供できます。
-
tMatchGroup: 入力データの重複をグルーピングし、各グループにグループIDおよびグループサイズに関する情報を付与します。この情報のテクニカルな名称は、それぞれGID およびGRP_SIZEで、tRuleSurvivorshipで必要となります。
-
tRuleSurvivorship: ユーザー定義のサバイバー検証フローを作成し、最良データを選択して各重複グループの単一の表現を構成します。
-
tFilterColumns: テクニカルなカラムを除外し、実際の情報が含まれるカラムを出力します。
-
tLogRow: ジョブ実行の結果を示します。