Accéder au contenu principal Passer au contenu complémentaire

Utiliser les fonctions de consolidation pour fusionner deux enregistrements et créer un enregistrement maître

Ce scénario décrit un Job simple utilisant l'algorithme T-Swoosh pour trouver des doublons dans les noms des clients. Il compare les valeurs de la colonne first_name à l'aide de méthodes de rapprochement et de consolidation, regroupe les enregistrement similaires et crée des représentations uniques des entités dans chaque groupe en fusionnant deux enregistrements similaires selon une règle de consolidation.

Ce enregistrements maître sont de nouveaux enregistrements qui n'existent pas dans les données d'entrée.

Vous pouvez utiliser plusieurs passes de rapprochement dans un Job, avec l'algorithme T-Swoosh. Chaque passe fournit les enregistrements maître consolidés pour chaque groupe et les enregistrements originaux de la deuxième passe. Cependant, les enregistrements maître intermédiaires sont supprimés du flux de sortie. Seuls les enregistrements maître finaux et originaux sont conservés.

Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.

Pourquoi et quand exécuter cette tâche

Comme le composant Apache Spark Batch ne supporte pas l'algorithme T-Swoosh, ce scénario utilise le composant Standard.

Dans ce Job :

  • le tFileInputDelimited fournit des enregistrements clients à traiter,
  • le tMatchGroup traite des données à l'aide de méthodes de rapprochement et de consolidation,

  • le tLogRow affiche les résultats du rapprochement et de la consolidation.
    Job utilisant les composants tFileInputDelimited, tMatchGroup et tLogRow.

Configurer votre Job

Pourquoi et quand exécuter cette tâche

Dans ce scénario, vous avez déjà stocké le schéma d'entrée principal dans le Repository. Pour plus d'informations concernant le stockage des métadonnées de schéma dans la vue Repository, consultez Gestion des métadonnées dans le Studio Talend.

Procédure

  1. Dans la vue Repository, développez Metadata - File delimited, où vous avez stocké le schéma d'entrée principal et déposez la connexion Fichier dans l'espace de modélisation graphique.
    La connexion Fichier utilisée dans ce scénario se nomme Customer_File.
    Une boîte de dialogue s'ouvre et affiche une liste de composants.
  2. Sélectionnez le tFileInputDelimited et cliquez sur OK.
  3. Déposez un tMatchGroup et un tLogRow de la Palette dans l'espace de modélisation graphique.
  4. Reliez les composants à l'aide de liens Main.

Configurer le composant d'entrée

Pourquoi et quand exécuter cette tâche

Le fichier d'entrée principal contient les colonnes : id, first_name et age. Les données dans ce fichier d'entrée contiennent des inexactitudes, comme des doublons, des noms écrits de manières différentes ou mal orthographiés, des informations différentes pour un même client.

Procédure

  1. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Component.
    Configuration du composant tFileInputDelimited.
    Les propriétés sont automatiquement renseignées. Si vous n'avez pas stocké votre schéma en local dans votre référentiel, renseignez manuellement les champs après avoir sélectionné Built-in dans les listes Schema et Property Type.
  2. Créez le schéma en cliquant sur le bouton Edit Schema, s'il n'est pas déjà stocké dans le Repository. Pensez à configurer le type de données dans la colonne Type.
    Schéma du composant tFileInputDelimited.

Configurer le schéma et sélectionner l'algorithme de rapprochement

Procédure

  1. Double-cliquez sur le tMatchGroup pour afficher sa vue Basic settings et définir ses propriétés.
  2. Dans la liste Matching Algorithm, sélectionnez T-Swoosh.
    Dans ce scénario, la règle de rapprochement utilise l'algorithme T-Swoosh.
  3. Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.
  4. Cliquez sur le bouton près du champ Edit schema pour voir les schémas d'entrée et de sortie et effectuer des modifications dans le schéma de sortie, si nécessaire.
    Exemple de schémas d'entrée et de sortie.
    Dans le schéma de sortie de ce composant, vous pouvez voir des colonnes standard en lecture seule. Pour plus d'informations, consultez Propriétés du tMatchGroup Standard.
  5. Dans la vue Advanced settings, laissez les paramètres sélectionnés par défaut.

Définir la règle de rapprochement

Procédure

  1. Dans la vue Basic settings du tMatchGroup, cliquez sur Preview pour ouvrir l'assistant de configuration et définir la clé de rapprochement et la fonction de consolidation.
    Configuration du composant tMatchGroup.
    Vous pouvez également utiliser l'assistant de configuration pour importer les règles de rapprochement créées et testées dans le Studio Talend, et stockées dans le référentiel, afin de les utiliser dans vos Jobs de rapprochement. Pour plus d'informations, consultez Importing match rules from the repository.
    Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
  2. Définissez la règle de rapprochement comme suit :
    • Dans la table Key definition, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Input Key Attribute et sélectionnez la colonne sur laquelle vous souhaitez effectuer l'opération de rapprochement, first_name dans ce scénario.

    • Cliquez dans la colonne Matching Function et sélectionnez Soundex dans la liste. Cette méthode fait correspondre les entrées traitées à un algorithme phonétique anglais standard indexant les chaînes de caractères par son, comme lorsqu'elles sont prononcées en anglais.

    • Dans la liste Tokenized measure, choisissez de ne pas utiliser de mesure segmentée pour l'algorithme sélectionné.

    • Dans la colonne Threshold, saisissez 0.8 et dans la colonne Confidence Weight, saisissez 1.

    • Sélectionnez Null Match None dans la colonne Handle Null afin d'obtenir des résultats de rapprochement dans lesquels les valeurs nulls ont un impact minimal.

    • Sélectionnez Most common dans la colonne Survivorship Function. Cette méthode permet de valider la valeur du nom le plus fréquent dans chaque groupe de doublons.

  3. Définissez la règle de rapprochement par défaut comme suit :
    • Dans la table Default Survivorship Rules, cliquez sur le bouton [+] pour ajouter une ligne à la table. Cliquez dans la colonne Data Type et sélectionnez Number.

    • Cliquez dans la colonne Survivorship Function et sélectionnez Largest (for numbers) dans la liste. Cette méthode valide la valeur numérique la plus grande au sein de chaque groupe.

  4. Configurez le paramètre Hide groups less than (Masquer les groupes de moins de) afin de définir les groupes à afficher dans le graphique et la table des correspondances.
    Ce paramètre vous permet de masquer des groupes de petite taille.
  5. Cliquez sur le bouton Chart dans l'assistant pour exécuter le Job avec la configuration définie et obtenir les résultats directement dans l'assistant.
    Vues des diagrammes et tableaux dans le tMatchGroup.
    Le diagramme de rapprochement donne une vue globale des doublons dans les données analysées. La table de rapprochement indique les détails des éléments dans chaque groupe, colore les groupes selon les couleurs du diagramme de rapprochement et indique par true les enregistrements maître. L'enregistrement maître de chaque groupe est le résultat de la fusion de deux enregistrements similaires selon l'algorithme phonétique et la règle de consolidation. L'enregistrement maître est un nouvel enregistrement qui n'existe pas dans les données d'entrée.
  6. Cliquez sur OK pour fermer l'assistant.

Finaliser et exécuter le Job

Procédure

  1. Double-cliquez sur le tLogRow pour afficher sa vue Basic settings et définir ses propriétés.
  2. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Résultats dans la console.
    Les enregistrements similaires sont regroupés. Le nombre d'enregistrements dans chaque groupe est listé dans la colonne GRP_SIZE et calculé uniquement sur l'enregistrement maître. La colonne MASTER indique à l'aide de true ou false si l'enregistrement correspondant est un enregistrement maître ou non. L'enregistrement maître est créé par fusion de l'enregistrement correspondant le mieux à l'algorithme phonétique et de l'enregistrement ayant la valeur d'âge la plus élevée. La colonne SCORE affiche la similarité calculée entre l'enregistrement d'entrée et l'enregistrement maître selon l'algorithme de rapprochement Soundex.
    L'identifiant de chaque groupe, de type String, s'affiche dans la colonnes GID à côté de l'enregistrement correspondant. L'identifiant est de type Long pour les Jobs migrés depuis d'anciennes versions. Si vous souhaitez avoir un identifiant de groupe de type String, remplacez le composant tMatchGroup dans le Job importé par un tMatchGroup de la Palette du Studio Talend.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.