Sélectionner les meilleures données d'un groupe de doublons afin de créer un enregistrement consolidé
Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend Data Services Platform et à Talend Data Fabric.
Le Job de ce scénario regroupe les données en doublon et créer un représentant unique de ces doublons. Ce représentant est l'enregistrement consolidé à la fin du processus de sélection et vous pouvez l'utiliser, par exemple, pour créer une copie maître des données.
Les composants utilisés dans ce Job sont :
-
un tFixedFlowInput : fournit les données d'entrée à traiter dans le Job. Dans un cas d'utilisation réel, vous pouvez utiliser un autre composant d'entrée afin de remplacer le tFixedFlowInput et fournir les données nécessaires.
-
un tMatchGroup : regroupe les doublons des données d'entrée et donne à chaque groupe des informations concernant l'identifiant et la taille de son groupe. Les noms techniques de ces informations sont respectivement GID et GRP_SIZE et elles sont requises par le composant tRuleSurvivorship.
-
un tRuleSurvivorship : crée le flux personnalisé de consolidation afin de sélectionner les données de meilleure qualité composant le représentant unique de chaque groupe de doublons.
-
un tFilterColumns : exclut les colonnes techniques et écrit en sortie les colonnes contenant les informations qui vous intéressent.
-
et un tLogRow : présente le résultat de l'exécution du Job.