複数のパスで顧客データをマッチング
このシナリオのジョブは、tMatchGroupコンポーネントを使って後続する2つのマッチングパスを実行して同種の顧客レコードをグルーピングし、マッチングする計算結果をグループ単位で出力します。
パスではそれぞれ後続のパスにマッチング内容を提供し、新しいルールとブロッキングキーで識別されるマッチング内容を追加できるようにします。このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
情報メモ注: このシナリオは標準コンポーネントで作成されていますが、Apache Spark Batchコンポーネントを使用することもできます。
このタスクについて
- tMysqlInputコンポーネントは、処理される顧客レコードに接続します。
- tGenKeyコンポーネントは、それぞれ、データレコードを分割する方法を定義します。最初のキーはデータを多数のグループに分割し、2番目のキーはブロッキングキーの定義に基づいて前のブロックと重複するグループを減らします。
- tMapコンポーネントは、2番目のtGenKeyコンポーネントによって生成されたキーの名前を変更します。
- 最初のtMatchGroupは最初のtGenKeyで定義されたパーティションを処理し、2番目のtMatchGroupは2番目のtGenKeyで定義されたパーティションを処理します。 情報メモ重要: 2つのtMatchGroupコンポーネントには同じスキーマが必要です。
- tLogRowコンポーネントは、2つのパスの後にマッチングする結果を表示します。
ジョブを設定
このタスクについて
手順
入力データに接続
手順
最初のパスのキー生成を設定する
手順
第2パスのキー生成を設定する
手順
最初のパスを設定する
手順
2番目のパスを設定する
手順
ジョブを実行してコンソールに結果を表示
このタスクについて
最初のパスの後に作成されたマッチンググループを表示し、2番目のパスの後に作成されたグループと比較するためには、ジョブを次のように変更する必要があります。
-
上図に示すように、tReplicateコンポーネントを使用して、処理する入力フローを複製します。コピー/貼付けオペレーションを使用して、ジョブの2つの部分を作成します。
-
最初のパス、tMatchGroupコンポーネントのみをジョブの上部に保持し、マッチング結果をtLogRowコンポーネント内に表示します。
-
2つのパスをジョブの下側部分に使用し、最終マッチング結果をin a tLogRowコンポーネント内に表示します。