Comparaison de quatre colonnes en utilisant différentes méthodes de correspondance et collecte de doublons rencontrés

Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend Data Services Platform et à Talend Data Fabric.

Ce scénario décrit un Job à quatre composants, dont le but est de collecter dans deux fichiers séparés toutes les entrées uniques et tous les doublons d'entrées depuis des colonnes traitées définies, à partir des types de correspondance Levenshtein et Double Métaphone.

Le fichier d'entrée dans cet exemple ressemble à ceci :

ID;Status;FirstName;Email;City;Initial;ZipCode
1;married;Paul;pnewman@comp.com;New York;P.N.;55677
2;single;Raul;rnewman@comp.com;New Ork;R.N.;55677
3;single;Mary;mnewman@comp.com;Chicago;M.N;66898

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Comparaison de quatre colonnes en utilisant différentes méthodes de correspondance et collecte de doublons rencontrés

Dans cette section

Cette page vous a-t-elle aidé ?