Utiliser les fonctions de consolidation pour fusionner deux enregistrements et créer un enregistrement maître
Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
Ce scénario décrit un Job simple utilisant l'algorithme T-Swoosh pour trouver des doublons dans les noms des clients. Il compare les valeurs de la colonne first_name à l'aide de méthodes de rapprochement et de consolidation, regroupe les enregistrement similaires et crée des représentations uniques des entités dans chaque groupe en fusionnant deux enregistrements similaires selon une règle de consolidation.
Ce enregistrements maître sont de nouveaux enregistrements qui n'existent pas dans les données d'entrée.
Vous pouvez utiliser plusieurs passes de rapprochement dans un Job, avec l'algorithme T-Swoosh. Chaque passe fournit les enregistrements maître consolidés pour chaque groupe et les enregistrements originaux de la deuxième passe. Cependant, les enregistrements maître intermédiaires sont supprimés du flux de sortie. Seuls les enregistrements maître finaux et originaux sont conservés.
Dans ce Job :
-
le tFileInputDelimited fournit des enregistrements clients à traiter,
-
le tMatchGroup traite des données à l'aide de méthodes de rapprochement et de consolidation,
-
le tLogRow affiche les résultats du rapprochement et de la consolidation.