サスペクトペアを計算し、サンプルをTalend Data Stewardshipに書き込む
このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。
大量のデータを処理する場合、重複レコードの発見は困難で時間がかかる作業となります。この例では、tMatchPairingでブロッキングキーを使用し、10種類のさまざまなソースに由来するシカゴの幼児教育センターの長いリストから重複が疑われるペアを計算します。
また、重複が疑われるサンプルを計算し、タスクの形式でTalend Data Stewardshipの[Grouping] (グルーピング)キャンペーンに書き込みます。次に、権限のあるデータスチュワードが実際にデータサンプルを見て、本当に重複しているかどうかを判断します。
次に、ラベル付きサンプルを使用して、マッチングモデルを計算し、Sparkの機械学習のコンテキストで重複が疑われるペアすべてに適用します。
以下に示すサンプルをレプリケートするには、tmatchpairing_load_suspect_pairs_in_tds.zipファイルをダウンロードします。
ジョブを設定する前に、次のことをご確認ください:
-
Talend Administration Centerで[Campaign Owner] (キャンペーン所有者)のロールに割り当てられ、サーバーのキャンペーンへのアクセス権限が付与されていること。
- Talend Data Stewardshipの[Grouping] (グルーピング)キャンペーンが作成され、教育センターファイルのストラクチャーに対応するスキーマが定義されていること。