Sélectionner les meilleures données d'un groupe de doublons afin de créer un enregistrement consolidé
Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
Le Job de ce scénario regroupe les données en doublon et créer un représentant unique de ces doublons. Ce représentant est l'enregistrement consolidé à la fin du processus de sélection et vous pouvez l'utiliser, par exemple, pour créer une copie maître des données pour MDM.
Les composants utilisés dans ce Job sont :
-
un tFixedFlowInput : fournit les données d'entrée à traiter dans le Job. Dans un cas d'utilisation réel, vous pouvez utiliser un autre composant d'entrée afin de remplacer le tFixedFlowInput et fournir les données nécessaires.
-
un tMatchGroup : regroupe les doublons des données d'entrée et donne à chaque groupe des informations concernant l'identifiant et la taille de son groupe. Les noms techniques de ces informations sont respectivement GID et GRP_SIZE et elles sont requises par le composant tRuleSurvivorship.
-
un tRuleSurvivorship : crée le flux personnalisé de consolidation afin de sélectionner les données de meilleure qualité composant le représentant unique de chaque groupe de doublons.
-
un tFilterColumns : exclut les colonnes techniques et écrit en sortie les colonnes contenant les informations qui vous intéressent.
-
et un tLogRow : présente le résultat de l'exécution du Job.