メイン コンテンツをスキップする 補完的コンテンツへスキップ

マッチングルールをTalend Studioリポジトリーからインポート

tMatchGroup設定ウィザードを使って、 Profiling パースペクティブで作成およびテストされたマッチングルールからマッチングキーをインポートできます。このインポートされたマッチングキーをマッチジョブで使用できます。

tMatchGroupコンポーネントを使用すると、VSRまたはT-Swooshアルゴリズムに基づいてTalend Studioのリポジトリーマッチングルールからインポートできます。

VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチングルールに基づいて、検出された類似の重複をグルーピングします。このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。

T-Swooshアルゴリズムを使用して重複を検出するか、2つの類似のレコードをマージし、サバイバーシップファンクションを使用してマスターレコードを作成する方法を定義できます。このような新しくマージされたレコードは、新たな重複を検出するために使用されます。VSRアルゴリズムとの相違は、通常マスターレコードが入力レコードのリストに存在しない新規レコードとなる点です。

手順

  1. 設定ウィザードの右上にある[Import match rule from repository] (マッチングルールをリポジトリーからインポート)アイコンをクリックします。
    [Match Rule Selector] (マッチングルールセレクター)ウィザードが開き、Talend Studioで作成され、リポジトリーに保存されたすべてのマッチングルールがリストされます。
    [Match Rule Selector] (マッチングルールセレクター)ウィザードの概要。
  2. tMatchGroupコンポーネントにインポートするマッチングルールを選択し、データに使用します。
    インポートするマッチングルールが、tMatchGroupの入力スキーマに存在しないカラムに定義されている場合、ウィザードに警告メッセージが表示されます。後で設定ウィザードで入力カラムを定義できます。
    コンポーネントの基本設定で同じ種類のマッチングアルゴリズムを選択し、設定ウィザードからインポートすることが重要です。それ以外の場合、ジョブは2つのアルゴリズム間で互換性のないパラメーターのデフォルト値で実行されます。
    情報メモ要確認: Apache Spark Batchコンポーネントを使用している場合、T-Swooshアルゴリズムを使用しているマッチングルールはインポートしないでください。コンポーネントはこのアルゴリズムをサポートしていません。
  3. 設定ウィザードのルールをインポートするルールに置き換える場合は、[Overwrite current Match Rule in the analysis] (分析の現在のマッチングルールを上書き)チェックボックスをオンにします。
    チェックボックスをオフのままにすると、ウィザードの現在のマッチングルールは上書きされずに、マッチングルールが新しいマッチングルールタブにインポートされます。
  4. [OK]をクリックします。
    マッチングキーはマッチングルールからインポートされ、設定ウィザードで新しいルールとしてリストされます。
    マッチングルールをインポートした後のtMatchGroupの設定。
  5. [Input Key Attribute] (入力キー属性)をクリックし、マッチングキーを適用するカラムを入力データから選択します。
  6. [Match threshold] (しきい値のマッチング)フィールドに、マッチング可能性のしきい値を入力します。
    計算されたマッチスコアがこの値以上になると、2つのデータレコードがマッチングすることになります。
  7. [Blocking Selection] (ブロッキング選択)テーブルで、入力フローからブロッキングキーとして使用するカラムを選択します。
    ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロックのデータを分割すると、比較が各ブロックのレコードペアに限定されるため、検証が必要なレコード数が減ります。ブロッキングキーを使うと、大型のデータセットを処理する時に非常に便利です。
    コンポーネントの[Blocking Selection] (ブロッキング選択)テーブルは、 Profilingパースペクティブのマッチングルールエディターにある[Generation of Blocking Key] (Blocking Keyテーブルの生成)テーブルとは異なります。
    tMatchGroupのブロッキングカラムは、tGenKeyコンポーネント(T_GEN_KEYと呼ばれます)から取得することも、入力スキーマ(ZIPカラムなど)から取得することもできます。マッチングルールエディタの[Generation of Blocking Key] (ブロッキングキーの生成)テーブルでは、ブロッキングキーを生成するために必要なパラメーターが定義されていますが、 この表はtGenKeyコンポーネントに相当します。[Generation of Blocking Key] (ブロッキングキーの生成)テーブルは、ブロッキングで使用されるブロッキングカラム[BLOCK_KEY]を生成します。
  8. ウィザードの右上の[Chart] (チャート)ボタンをクリックして、インポートしたマッチングルールを使用してジョブを実行し、マッチングする結果をウィザードに表示します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。