Accéder au contenu principal

Sélectionner les meilleures données d'un groupe de doublons afin de créer un enregistrement consolidé

Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend Data Services Platform et à Talend Data Fabric.

Le Job de ce scénario regroupe les données en doublon et créer un représentant unique de ces doublons. Ce représentant est l'enregistrement consolidé à la fin du processus de sélection et vous pouvez l'utiliser, par exemple, pour créer une copie maître des données.

Les composants utilisés dans ce Job sont :

  • un tFixedFlowInput : fournit les données d'entrée à traiter dans le Job. Dans un cas d'utilisation réel, vous pouvez utiliser un autre composant d'entrée afin de remplacer le tFixedFlowInput et fournir les données nécessaires.

  • un tMatchGroup : regroupe les doublons des données d'entrée et donne à chaque groupe des informations concernant l'identifiant et la taille de son groupe. Les noms techniques de ces informations sont respectivement GID et GRP_SIZE et elles sont requises par le composant tRuleSurvivorship.

  • un tRuleSurvivorship : crée le flux personnalisé de consolidation afin de sélectionner les données de meilleure qualité composant le représentant unique de chaque groupe de doublons.

  • un tFilterColumns : exclut les colonnes techniques et écrit en sortie les colonnes contenant les informations qui vous intéressent.

  • et un tLogRow : présente le résultat de l'exécution du Job.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.