2つのカラムであいまいマッチングを行って、完全マッチング、マッチング候補、マッチングしない値を出力
情報メモ重要: 6.0の一般公開リリース以降、tBlockedFuzzyJoinコンポーネントは非推奨となっており、Talend Studio 8.0 R2024-05以降は削除されています。Talendは、tRecordMatchingコンポーネントの使用をお勧めします。
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオでは、次を目的とする6コンポーネントジョブについて説明します:
-
参照入力ファイルにある完全に同じ値を含むエントリーに対して、grpカラムで実行されている各グループ数をマッチング。
-
入力ファイルのfirstnameカラム内のエントリー間の編集距離を、参照入力ファイル内の同エントリーに基づいてチェック。
これら2つのマッチングタイプの出力は、3つの出力ファイルに書き込まれます: 最初のファイルにはマッチングの値、2番目のファイルにはマッチング候補の値、3番目のファイルにはルックアップファイル内にマッチングがない値。
このシナリオでは、メインおよび参照入力スキーマがリポジトリーに保存済みであることが前提です。リポジトリーにスキーマメタデータを保管する方法は、Talend Studioでメタデータを管理をご覧ください。
メイン入力ファイルには、[grp] (グループ)、[gender] (性別)、[firstname] (名)、および[count] (件数)の4つのカラムが含まれています。この入力ファイル内のデータには、重複、ファーストネームのスペルの相違や間違い、同一顧客に異なる情報など、問題があります。