ソースデータの疑わしいペアと疑わしいサンプルを計算
このシナリオは、サブスクリプションベースのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricにのみ適用されます。
この例では、tMatchPairingでブロッキングキーを使用し、シカゴの幼児教育センターのリストから重複が疑われるペアを計算します。
このユースケースでは以下のコンポーネントが使用されます:
-
tFileInputDelimitedコンポーネント。10種類のさまざまなソースに由来するシカゴの幼児教育センターのリストを含む、ソースファイルを読み取ります。
-
tMatchPairingコンポーネント。データを事前分析し、重複の疑いのあるペアを計算し、tMatchPredictコンポーネントで使用するペアリングモデルを生成します。
-
3つのtFileOutputDelimitedコンポーネント。重複の疑いのあるレコード、疑いのあるペアのサンプルおよびユニークレコードを出力します。
-
tLogRowコンポーネント。厳密な重複を出力します。