パーティションによるブロッキング
レコード連鎖は、各レコードをデータセットの他のレコードと比較する必要があるため、要求の厳しいタスクです。この作業の効率を上げるためにはブロッキングという手法が必要になる場合がほとんどです。
ブロックキングとは、同じ属性を持つ似たような大きさのパーティションにデータを分類することです。その目的は、同じパーティション内にグループ化されているレコードに対して比較を限定することにあります。
効率的なパーティションを作成するためには、変更の可能性が低い属性(人のファーストネームやラストネームなど)を見つけることが必要です。このようにすることで、ブロックキングステップの信頼性とタスクの計算速度が向上します。
ブロッキングキーの生成とブロックの分布の表示には、tGenKeyコンポーネントを使用することをお勧めします。
ブロッキングキーの生成に関する詳細は、Identificationをご覧ください。