疑わしい重複するペアのリストは非常に長くなることがあります。このリストのサブセットを1つのみラベル付けして、潜在的な重複のグループを識別します。
次に、機械学習を使って、リスト全体のラベルを予測します。その場合は、このリストから手動で固定されたサイズのサンプルを出力できます。サンプルはランダムに選択されます。
Talend Data Stewardshipを使い、グルーピングタスクを処理して、レコードのペア間の関係を決定する方法のサンプルは、をご覧ください。
このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。