異なるマッチング方法を使用して4つのカラムを比較し、発生した重複を収集

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real-Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricにのみ適用されます。

このシナリオでは、LevenshteinのマッチングタイプとDouble Metaphoneのマッチングタイプに基づいて、定義済みの一部のカラムから一意のエントリーと重複エントリーをすべて2つの別々のファイルで収集する4コンポーネントのジョブについて説明します。

このサンプルの入力ファイルは、次のようになります。

ID;Status;FirstName;Email;City;Initial;ZipCode
1;married;Paul;pnewman@comp.com;New York;P.N.;55677
2;single;Raul;rnewman@comp.com;New Ork;R.N.;55677
3;single;Mary;mnewman@comp.com;Chicago;M.N;66898

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

異なるマッチング方法を使用して4つのカラムを比較し、発生した重複を収集

このセクション内

このページは役に立ちましたか?