メイン コンテンツをスキップする

ソースデータの疑わしいペアと疑わしいサンプルを計算

このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。

この例では、tMatchPairingでブロッキングキーを使用し、シカゴの幼児教育センターのリストから重複が疑われるペアを計算します。

このユースケースでは以下のコンポーネントが使用されます:

  • tFileInputDelimitedコンポーネント。10種類のさまざまなソースに由来するシカゴの幼児教育センターのリストを含む、ソースファイルを読み取ります。

  • tMatchPairingコンポーネント。データを事前分析し、重複の疑いのあるペアを計算し、tMatchPredictコンポーネントで使用するペアリングモデルを生成します。

  • 3つのtFileOutputDelimitedコンポーネント。重複の疑いのあるレコード、疑いのあるペアのサンプルおよびユニークレコードを出力します。

  • tLogRowコンポーネント。厳密な重複を出力します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。