VSRアルゴリズムを使ったルール
VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチルールに基づいて、検出された類似の重複値をグルーピングします。このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。
VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。
マッチ分析とマッチングコンポーネントの場合、VSRアルゴリズムのマッチング結果は入力レコードの順序によって異なります。可能な場合は、より信頼できるレコードを入力フローの先頭に配置すると、アルゴリズムの精度が向上します。
マッチングコンポーネント(Hadoopマッチングコンポーネントを含む)では、VSRアルゴリズムで設定されたルールのみが実行される点にご注意ください。
このルールをマッチ分析エディターにインポートし、自分のデータでテストできます。詳細は、リポジトリーからマッチングルールをインポートをご覧ください。
また、tMatchGroup設定ウィザードおよびその他の一致コンポーネント(Hadoopコンポーネントなど)にそのルールをインポートし、一致ジョブで使用することもできます。詳細は、tMatchGroupのドキュメンテーションをご覧ください。