メイン コンテンツをスキップする 補完的コンテンツへスキップ

類似のレコードをグルーピングするためのマッチングルールの作成

マッチングアルゴリズムに基づいて、tMatchGroupコンポーネントを構成し、潜在的な重複をグルーピングします。このコンポーネントは、グループ識別子を使って、グルーピングするレコードを識別します。

手順

  1. tMatchGroupをダブルクリックすると、設定ウィザードが開き、マッチングルールを定義できます。
  2. [Key Definition] (キー定義)テーブルで、使用するアルゴリズムとどのカラムに一致するかを定義します。同様に、[Blocking Selection] (ブロッキング選択)テーブルで、検査する必要があるペアの数を減らすために、ブロッキング値として使用するカラムを選択します。
    詳細は、tMatchGroupをご覧ください。
  3. [Chart] (チャート)ボタンをクリックして、一致する結果をウィザードに表示し、[OK]をクリックします。
  4. コンポーネントプロパティで[Advanced settings] (詳細設定)をクリックし、[Sort output data by GID] (出力データをGIDでソートする)チェックボックスがオンになっていることを確認します。
    情報メモ注: このオプションが有効でない場合、Talend Data Stewardshipにロードした時に潜在的な重複が別のタスク内にグルーピングされる可能性があります。
  5. tMapをダブルクリックして、エディターを開きます。
  6. 入力データフローを出力フローにマッピングし、[GID] (グループID)および[MASTER] (マスター)カラムをTDS_GIDおよびTDS_MASTERにそれぞれ割り当てます。
    tMapの詳細は、tMapの標準プロパティをご覧ください。
  7. データが1つのソースから取得される場合、この例では、右側の表[CRM][TDS_SOURCE]カラムのソース名を入力します。ソース名にドットが含まれていないこと、またドル記号で始まらないことをご確認ください。
    ソース名を指定しない場合、[Source 1] (ソース 1)[Source 2] (ソース 2)などがデフォルトで追加されます。
  8. マッチング結果を外部システムに保管する必要がある場合は、[GID]から[TDS_EXTERNAL_ID]にマッピングします。
    これにより、外部システムから特定のタスクを参照できます。
  9. データが異なるソースから取得され、入力スキーマにソース名を保持するカラムがある場合は、ソースカラムを[TDS_SOURCE]にマッピングします。

    ソース名を指定しない場合、[Source 1] (ソース 1)[Source 2] (ソース 2)などがデフォルトで追加されます。

    同じタスクの複数のソースで同じ名前を指定した場合、-1-2などのサフィックスがデフォルトで追加されます。たとえば、SAPの3つのソースを使用してタスクを作成する場合、Talend Data Stewardshipのソース名はSAPSAP-1SAP-2として表示されます。

    また、特定のレコードのトラストスコアをタスクソースレベルで指定し、tDataStewardshipTaskOutput[TDS_RATING]出力カラムにマッピングして、動的に計算することもできます。これらのトラストスコアにより、キャンペーン作成時に定義されたスコアが上書きされます。

    入力ファイルのソース名にドットが含まれていないこと、またドル記号で始まらないことをご確認ください。

  10. [OK]をクリックします。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。