Utiliser les fonctions de consolidation pour fusionner deux enregistrements et créer un enregistrement maître
Ce scénario décrit un Job simple utilisant l'algorithme T-Swoosh pour trouver des doublons dans les noms des clients. Il compare les valeurs de la colonne first_name à l'aide de méthodes de rapprochement et de consolidation, regroupe les enregistrement similaires et crée des représentations uniques des entités dans chaque groupe en fusionnant deux enregistrements similaires selon une règle de consolidation.
Ce enregistrements maître sont de nouveaux enregistrements qui n'existent pas dans les données d'entrée.
Vous pouvez utiliser plusieurs passes de rapprochement dans un Job, avec l'algorithme T-Swoosh. Chaque passe fournit les enregistrements maître consolidés pour chaque groupe et les enregistrements originaux de la deuxième passe. Cependant, les enregistrements maître intermédiaires sont supprimés du flux de sortie. Seuls les enregistrements maître finaux et originaux sont conservés.
Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
Pourquoi et quand exécuter cette tâche
Dans ce Job :
- le tFileInputDelimited fournit des enregistrements clients à traiter,
-
le tMatchGroup traite des données à l'aide de méthodes de rapprochement et de consolidation,
- le tLogRow affiche les résultats du rapprochement et de la consolidation.
Configurer votre Job
Pourquoi et quand exécuter cette tâche
Dans ce scénario, vous avez déjà stocké le schéma d'entrée principal dans le Repository. Pour plus d'informations concernant le stockage des métadonnées de schéma dans la vue Repository, consultez Gestion des métadonnées dans le Studio Talend.
Procédure
Configurer le composant d'entrée
Pourquoi et quand exécuter cette tâche
Le fichier d'entrée principal contient les colonnes : id, first_name et age. Les données dans ce fichier d'entrée contiennent des inexactitudes, comme des doublons, des noms écrits de manières différentes ou mal orthographiés, des informations différentes pour un même client.