メイン コンテンツをスキップする 補完的コンテンツへスキップ

重複するペアを識別するためのグルーピングキャンペーンの追加

[Grouping] (グルーピング)キャンペーンは、レコードのペアまたはグループで選択できるアービトレーションのリストを定義します。データスチュワードによるレコードグループの選択の結果がグルーピングタスクとなります。

このキャンペーンの一般的なユースケースは、Sparkの機械学習を使用し、非常に大量のデータを照合するコンテキストで、重複が疑われるレコードのペアにラベルを付ける、というものです。キャンペーンのもう1つのユースケースとしては、データスチュワードが重複レコードをマスターレコードにマージするマージングキャンペーンを実行する前に重複している可能性のあるグループを特定する、というものがあります。

この例では、[Grouping] (グルーピング)キャンペーンをSparkの機械学習のプロセスで使用しています。10の異なったソースから来るシカゴの幼児教育センターの顧客リストから抽出されるサンプルデータで重複レコードを識別します。データ照合のこの手順はtMatchPairingコンポーネントを使用した、代理店リストで疑われる重複レコードの計算処理後に表示されます。

キャンペーン所有者がキャンペーンを作成すると、データスチュワードはサンプルデータを確認し、レコードのペアが重複しているかどうかを判断する必要があります。

始める前に

  • 管理者がスチュワードシップユーザーを作成し、Talend Management Consoleでロールを割り当てていること。ユーザーの管理の詳細は、ユーザーを管理をご覧ください。

  • キャンペーン所有者のロールがTalend Management Consoleに割り当てられているか、データモデルとキャンペーンを追加および管理する権限を持つロールが割り当てられています。

  • ユーザーがキャンペーンの所有者としてTalend Cloud Data Stewardshipにアクセスしていること。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。