Dans l'assistant de configuration du tMatchGroup vous pouvez importer des clés de rapprochement depuis les règles de rapprochement créées et testées dans la perspective Profiling . Vous pouvez utiliser ces clés de correspondance importées dans vos Jobs de rapprochement.
Le composant tMatchGroup vous permet d'importer du référentiel du Studio Talend des règles de rapprochement basées sur l'algorithme VSR ou sur l'algorithme T-Swoosh.
L'algorithme VSR prend un ensemble d'enregistrements en entrée et regroupe les doublons rencontrés selon les règles de rapprochement définies. Il compare des paires d'enregistrements et les assigne à des groupes. Le premier enregistrement traité de chaque groupe est l'enregistrement maître du groupe. L'algorithme VSR compare chaque enregistrement par rapport au maître de chaque groupe et utilise les distances calculées, depuis les enregistrements maître, pour décider du groupe auquel un enregistrement doit appartenir.
L'algorithme T-Swoosh vous permet de trouver des doublons et de définir comment deux enregistrements similaires sont fusionnés pour créer un enregistrement maître, à l'aide d'une fonction de consolidation. Ces nouveaux enregistrements fusionnés sont utilisés pour trouver des doublons. La différence avec l'algorithme VSR est que l'enregistrement maître est en général un nouvel enregistrement qui n'existe pas dans la liste des enregistrements d'entrée.
-
Dans l'assistant de configuration, cliquez sur l'icône dans le coin supérieur droit.
L'assistant Match Rule Selector s'ouvre et liste toutes les règles de rapprochement créées dans le Studio Talend et sauvegardées dans le référentiel.
-
Sélectionnez la règle de rapprochement que vous souhaitez importer dans le composant tMatchGroup et utiliser sur vos données.
Un avertissement s'affiche dans l'assistant si la règle de rapprochement que vous souhaitez importer est définie sur des colonnes qui n'existent pas de le schéma d'entrée du tMatchGroup. Vous pouvez définir des colonnes d'entrée ultérieurement dans l'assistant de configuration.
Il est important d'avoir le même type d'algorithme de rapprochement sélectionné dans les propriétés simples du composant et défini dans l'assistant de configuration. Sinon, le Job s'exécute avec les valeurs par défaut pour les paramètres qui ne sont pas compatibles avec les deux algorithmes.
Note InformationsA faire : Si vous utilisez le composant Apache Spark Batch, n'importez pas de règle de rapprochement à l'aide de l'algorithme T-Swoosh. Le composant ne supporte pas cet algorithme.
-
Cochez la case Overwrite current Match Rule in the analysis si vous souhaitez remplacer la règle dans l'assistant de configuration par la règle importée.
Si vous laissez la case décochée, les clés de correspondance sont importées dans un nouvel onglet Match Rule sans écraser la règle de rapprochement courante dans l'assistant.
-
Cliquez sur OK.
La clé de correspondance est importée de la règle de rapprochement et listée en tant que nouvelle règle de l'assistant de configuration.
-
Cliquez dans la colonne Input Key Attribute et sélectionnez parmi les données d'entrée la colonne sur laquelle appliquer la clé de correspondance.
-
Dans le champ Match threshold, saisissez le seuil de probabilité de rapprochement
Deux enregistrements de données correspondent lorsque le score de correspondance calculé est supérieur ou égal à cette valeur.
-
Dans la table Blocking Selection (Sélection de blocs), sélectionnez les colonnes du flux d'entrée que vous souhaitez utiliser comme clé de bloc.
Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements dans chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement de jeux de données volumineux.
La table Blocking Selection (Sélection de blocs) du composant est différente de la table Generation of Blocking Key (Génération de clé de bloc) dans l'éditeur de règles de rapprochement de la perspective Profiling.
La colonne de bloc du tMatchGroup peut provenir d'un composant tGenKey et serait appelée T_GEN_KEY ou directement du schéma d'entrée, une colonne ZIP par exemple. La table Generation of Blocking Key, dans l'éditeur de règle de rapprochement définit les paramètres nécessaires pour générer une clé de bloc. Cette table est similaire au composant tGenKey. La table Generation of Blocking Key génère une colonne de bloc BLOCK_KEY utilisée pour la création de blocs.
-
Cliquez sur le bouton Chart dans le coin supérieur droit de l'assistant afin d'exécuter le Job à l'aide de la règle de rapprochement importée et d'afficher les résultats du rapprochement dans l'assistant.