tMatchGroupをシンプルVSRマッチャーおよびT-Swooshアルゴリズムと併用する
tMatchGroupは、1つまたは複数のマッチングルールを使い、大量のデータが含まれているあらゆるソースデータに類似データレコードのグループを作成するので、このコンポーネントによって2つ以上のレコードをマッチングさせることができます。
また、連続するtMatchGroupコンポーネントを使ってジョブをデザインし、さまざまなブロッキングキーに基づいてデータパーティションを作成することもできます。
情報メモ制約事項: T-Swooshアルゴリズムは標準コンポーネントでのみ使用できます。Apache Spark Batchコンポーネントを使用する必要がある場合は、[Simple VSR Matcher] (シンプルVSRマッチャー)を使います。