メイン コンテンツをスキップする 補完的コンテンツへスキップ

重複するペアを識別するためのグルーピングキャンペーンの追加

[Grouping] (グルーピング)キャンペーンは、レコードのペアまたはグループで選択できるアービトレーションのリストを定義します。データスチュワードによるレコードグループの選択の結果がグルーピングタスクとなります。

このキャンペーンの一般的なユースケースは、Sparkの機械学習を使用し、非常に大量のデータを照合するコンテキストで、重複が疑われるレコードのペアにラベルを付ける、というものです。キャンペーンのもう1つのユースケースとしては、データスチュワードが重複レコードをマスターレコードにマージするマージングキャンペーンを実行する前に重複している可能性のあるグループを特定する、というものがあります。

この例では、[Grouping] (グルーピング)キャンペーンをSparkの機械学習のプロセスで使用しています。10の異なったソースから来るシカゴの幼児教育センターの顧客リストから抽出されるサンプルデータで重複レコードを識別します。データ照合のこの手順はtMatchPairingコンポーネントを使用した、代理店リストで疑われる重複レコードの計算処理後に表示されます。

キャンペーン所有者がキャンペーンを作成すると、データスチュワードはサンプルデータを確認し、レコードのペアが重複しているかどうかを判断する必要があります。

始める前に

  • 管理者がスチュワードシップユーザーを作成し、Talend Administration Centerでロールを割り当てていること。ユーザーの作成の詳細は、Data Stewardshipユーザーを作成をご覧ください。

  • Talend Administration Centerでキャンペーン所有者ロールを割り当てられていること。

  • ユーザーがキャンペーンの所有者としてTalend Data Stewardshipにアクセスしていること。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。