tMatchPairing
Sparkでの機械学習のコンテキストで、大量のボリュームを含むソースデータから疑わしい重複のペアを計算できます。
このコンポーネントでは、行ごとにデータセット行を読み取り、個別ファイルのユニーク行および厳密な重複を排除し、ブロッキングキー定義に基づいて疑わしいレコードのペアを計算し、データセットを表す疑わしいレコードのサンプルを作成します。
サスペクトペアを手動でラベル付けしたり、Talend Data Stewardshipで既に定義済みのグルーピングキャンペーンにロードしたりできます。
ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。
デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。