VSRアルゴリズムを使ったルール
VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチングルールに基づいて、検出された類似の重複値をグルーピングします。
このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。
VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。
一致分析と一致コンポーネントの場合、VSRアルゴリズムの一致結果は入力レコードの順序によって異なります。可能な場合は、より信頼できるレコードを入力フローの先頭に配置すると、アルゴリズムの精度が向上します。
一致コンポーネント(Hadoop一致コンポーネントを含む)では、VSRアルゴリズムで設定されたルールのみが実行される点にご注意ください。
このルールを一致分析エディターにインポートし、自分のデータでテストできます。詳細は、リポジトリーからマッチングルールをインポートをご覧ください。
また、tMatchGroup設定ウィザードおよびその他の一致コンポーネント(Hadoopコンポーネントなど)にそのルールをインポートし、一致ジョブで使用することもできます。詳細は、tMatchGroupのドキュメンテーションをご覧ください。
ブロッキングキーを一致分析から定義
About this task
ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証されるレコード数が減少します。ブロッキングキーの使用は、大型のデータセットを処理する時に非常に便利です。