tMatchGroup
1つ以上のマッチングルールを使用して大量のデータを含むソースデータに同様のデータレコードのグループを作成します。
tMatchGroupは、マッチング方法と重複した類似のグループを一緒に使用して、標準入力データフローとSpark入力データフローの両方のカラムを比較します。
複数のtMatchGroupコンポーネントを順次使用して、異なるブロッキングキーとデータを照合できます。これにより、以前のデータブロックと重複するさまざまなデータパーティションを作成することによって、各tMatchGroupコンポーネントによって受信されたグループが絞り込まれます。
グループを定義する際、各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。他のレコードは、マスターレコードからの距離に応じて計算され、それに従って適切なマスターレコードに配信されます。
デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。