tMatchGroup

Ce composant crée des groupes d'enregistrements de données similaires dans toute source de données, même les gros volumes, à l'aide d'une ou plusieurs règles de mise en correspondance.

Le tMatchGroup compare des colonnes dans les flux d'entrée standards et les flux de données d'entrée Spark en utilisant des méthodes de rapprochement et regroupe les doublons rencontrés.

Différents composants tMatchGroup peuvent être utilisés en séquence pour rapprocher des données par rapport à différentes clés de blocs. Cela permet d'affiner les groupes reçus par chaque tMatchGroup tout en créant différentes partitions de données qui écraseront les blocs de données précédents et ainsi de suite.

Lors de la définition d'un groupe, le premier enregistrement traité de chaque groupe est l'enregistrement maître du groupe. Les autres enregistrements sont calculés selon leur distance par rapport aux enregistrements maître et sont distribués à l'enregistrement maître correspondant.

Ce composant n'est pas intégré par défaut à votre Studio Talend. Vous devez l'installer à l'aide du gestionnaire des fonctionnalités. Pour plus d'informations, consultez Installer les fonctionnalités à l'aide du Gestionnaire des fonctionnalités.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

tMatchGroup

Dans cette section

Cette page vous a-t-elle aidé ?