SUR CETTE PAGE

Accéder au contenu principal

CETTE PAGE VOUS A-T-ELLE AIDÉ ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Ajouter une campagne Grouping pour identifier les paires de doublons

Une campagne Grouping définit une liste de choix possibles d'arbitrage pour des paires ou des groupes d'enregistrements. Le résultat d'une tâche de regroupement est le choix effectué par les data stewards sur les groupes d'enregistrements.

Un cas d'utilisation typique pour cette campagne : libeller les paires des doublons suspects dans le contexte de rapprochement de grands volumes de données, à l'aide de l'apprentissage automatique dans Spark. Un autre cas d'utilisation : identifier les groupes de doublons potentiels avant de les envoyer dans une campagne Merging où des data stewards pourront fusionner les doublons dans des enregistrements maître.

La campagne Grouping de cet exemple est utilisée dans un processus d'apprentissage automatique dans Spark. Elle permet d'identifier des doublons dans un échantillon de données extrait d'une longue liste de centres d'éducation de Chicago, provenant de dix sources de données différentes. Cette étape du rapprochement de données vient après le calcul des doublons suspects dans la liste des agences, en utilisant le composant tMatchPairing.

Une fois que les gestionnaires de campagnes ont créé la campagne, les data stewards doivent regarder l'échantillon de données et décider si les paires d'enregistrements sont des doublons.

Avant de commencer

Un administrateur doit avoir créé des utilisateurs et des utilisatrices Stewardship et leur avoir assigné des rôles dans Talend Management Console. Pour plus d'informations concernant la gestion des utilisateurs et des utilisatrices, consultez Gestion des utilisateurs et des utilisatrices.
Le rôle Gestionnaire de campagne doit vous être assigné dans Talend Management Console ou vous avez un rôle ayant l’autorisation d’ajouter des modèles de données et des campagnes.
Vous devez avoir accédé à Talend Cloud Data Stewardship en tant que gestionnaire de campagne.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Ajouter une campagne Grouping pour identifier les paires de doublons

Avant de commencer

Dans cette section

Cette page vous a-t-elle aidé ?