2つのレコードのマッチング
tMatchGroupコンポーネントを使用して重複を検出し、類似するレコードをマージして1つのマスターレコードを作成する方法を定義できます。
マスターレコードの作成は反復的なプロセスです。新しいマスターレコードはそれぞれ、新しい重複を見つけるために使用できます。
マスターレコードの作成には、2つの異なるアルゴリズムのどちらかを選ぶことができます。
- シンプルVSRマッチャー
- T-Swoosh。このアルゴリズムは標準コンポーネントでのみ利用可能です。
2つのアルゴリズムの間の主な違いは、T-Swooshのみ、入力レコードのリストに存在しない新しいレコードを各マスターレコードに作成する点です。
マッチング測定
2つのレコードの1つの属性を比較するには、[Exact] (正確)、[Levenshtein] (レーベンシュタイン)、およびJaro-Winklerなどの実装済みのマッチングファンクションからいずれかを選ぶか、または作成したカスタムマッチングアルゴリズムを使用します。
2つのレコードを多数の属性で比較することもできます。2つのレコードがマッチングするには、次の2つの条件が当てはまる必要があります。
- T-Swooshアルゴリズムを使用する場合、マッチングルール内の各マッチングファンクションのスコアは、しきい値が指定されていれば、それを超えている必要があります。デフォルトでは、しきい値は1に設定されています。これはすなわち、[Exact - ignore case] (正確-大文字と小文字を区別しない)と潜在的にはカスタムマッチングファンクションを除いて、ほとんどのマッチングファンクションの場合、完全マッチングを意味します。
- さまざまに異なるマッチングファンクションの加重スコアとして計算されたグローバルスコアは、マッチングしきい値を超えている必要があります。スコアは次の式の結果と等しくなります: Σ(wi × si(r1,r2)) / Σwiここで wi はマッチングファンクション i および si(r1,r2) はマッチングファンクション i (レコード r1 および r2 。
マッチングルール
同じデータセットに異なるマッチングルールを定義できます。
マッチングルールの少なくとも1つが満たされれば、2つのレコードはマッチングしていることになります。特定のルールに基づいて2つのレコードがマッチングしていることが確認されると、その他のルールは確認されません。