異なるマッチング方法を使用して4つのカラムを比較し、発生した重複を収集
このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
このシナリオでは、LevenshteinのマッチングタイプとDouble Metaphoneのマッチングタイプに基づいて、定義済みの一部のカラムから一意のエントリーと重複エントリーをすべて2つの別々のファイルで収集する4コンポーネントのジョブについて説明します。
このサンプルの入力ファイルは、次のようになります。
ID;Status;FirstName;Email;City;Initial;ZipCode
1;married;Paul;pnewman@comp.com;New York;P.N.;55677
2;single;Raul;rnewman@comp.com;New Ork;R.N.;55677
3;single;Mary;mnewman@comp.com;Chicago;M.N;66898