データマッチングとは
データマッチングとは、データセット内の同じエンティティを表すレコードを見つけることができるプロセスです。
一般的な定義
データマッチングによって次の操作が可能になります。
- データソースで重複データ、重複の可能性があるデータ、非重複データを検索する
- データを解析し、重み付けしたマッチング確率を返す
- 同一または類似するエントリーを1つのエントリーにマージする
- さまざまなデータソース間の不一致を低減させる
レコード連鎖
レコード連鎖は、データセット内にある同じエンティティを参照するレコードを識別することです。
データレコード連鎖には次の2つのタイプがあります。
- 決定的レコード連鎖: マッチングする識別子に基づきます。
- 確率的レコード連結: 識別子がマッチングする確率に基づきます。