重複するペアを識別するためのグルーピングキャンペーンの追加
[Grouping] (グルーピング)キャンペーンは、レコードのペアまたはグループで選択できるアービトレーションのリストを定義します。データスチュワードによるレコードグループの選択の結果がグルーピングタスクとなります。
このキャンペーンの一般的なユースケースは、Sparkの機械学習を使用し、非常に大量のデータを照合するコンテキストで、重複が疑われるレコードのペアにラベルを付ける、というものです。キャンペーンのもう1つのユースケースとしては、データスチュワードが重複レコードをマスターレコードにマージするマージングキャンペーンを実行する前に重複している可能性のあるグループを特定する、というものがあります。
この例では、[Grouping] (グルーピング)キャンペーンをSparkの機械学習のプロセスで使用しています。10の異なったソースから来るシカゴの幼児教育センターの顧客リストから抽出されるサンプルデータで重複レコードを識別します。データ照合のこの手順はtMatchPairingコンポーネントを使用した、代理店リストで疑われる重複レコードの計算処理後に表示されます。
キャンペーン所有者がキャンペーンを作成すると、データスチュワードはサンプルデータを確認し、レコードのペアが重複しているかどうかを判断する必要があります。
始める前に
-
管理者がスチュワードシップユーザーを作成し、Talend Administration Centerでロールを割り当てていること。ユーザーの作成の詳細は、Data Stewardshipユーザーを作成をご覧ください。
-
Talend Administration Centerでキャンペーン所有者ロールを割り当てられていること。
-
ユーザーがキャンペーンの所有者としてTalend Data Stewardshipにアクセスしていること。