マッチングルールを作成
データのクオリティ管理においては、マッチングルールを使用してカラムセットを比較し、ブロッキングキーおよびマッチングキーやサバイバーシップ機能を使用して類似レコードのグループを作成します。
Profilingパースペクティブで、VSRまたはT-Swooshアルゴリズムを使ってマッチングルールを作成し、Talend Studioリポジトリーに保存できます。リポジトリーで一元管理されたマッチングルールは、一致分析エディターにインポートし、重複レコードをグルーピングするために自分のデータでテストできます。一致分析の詳細は、上記の一致分析を作成をご覧ください。
また、VSRアルゴリズムを使用して定義されたルールは、tMatchGroup設定ウィザードやその他の一致コンポーネント(Hadoopコンポーネントなど)にインポートして、一致ジョブでそのルールを使用することもできます。詳細は、tMatchGroupのドキュメンテーションをご覧ください。
2つのアルゴリズムは、次の2つの理由から異なる一致結果を生成します。
-
VSRアルゴリズムの最初の入力レコードとして、単純にマスターレコードが選択されます。そのため、一致グループのリストが入力レコードの順番によって異なる場合があります。
-
出力レコードはVSRアルゴリズムでは変更されませんが、T-Swooshアルゴリズムでは新しいレコードが作成されます。