tRecordMatching

Ce composant assure la qualité des données de n'importe quelle source de données en les comparant aux données de référence.

Le tRecordMatching fait une jointure sur deux tables en effectuant un rapprochement flou sur plusieurs colonnes, à l'aide d'une grande variété d'algorithmes de comparaison. Il compare des colonnes du flux principal à des colonnes du flux de référence (lookup) et écrit les données qui correspondent, les correspondances possibles et les données en rejet. Au moment de définir votre stratégie de correspondance, les scores de correspondance définis par l'utilisateur ou l'utilisatrice sont cruciaux pour déterminer le niveau de correspondance des données qui vous intéressent.

Ce composant n'est pas intégré par défaut à votre Studio Talend. Vous devez l'installer à l'aide du gestionnaire des fonctionnalités. Pour plus d'informations, consultez Installer les fonctionnalités à l'aide du Gestionnaire des fonctionnalités.

Propriétés du tRecordMatching Standard

Ces propriétés sont utilisées pour configurer le tRecordMatching s'exécutant dans le framework de Jobs Standard.

Le composant tRecordMatching Standard appartient à la famille Qualité de données.

Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend Data Services Platform et Talend Data Fabric.

Basic settings

Propriétés	Description
Schema et Edit schema	Un schéma est une description de lignes, il définit le nombre de champ qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository. Built-in : le schéma est créé et stocké localement pour ce composant seulement. Pour plus d'informations concernant les schémas des composants dans l'onglet Basic settings (Paramètres simples), consultez Onglet Basic settings. Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Pour plus d'informations concernant les schémas des composants dans l'onglet Basic settings (Paramètres simples), consultez Onglet Basic settings.
Replace output column with lookup column if matches or possible matches	Cochez cette case pour remplacer la colonne de sortie par la colonne de référence en cas de correspondance ou de valeurs de correspondances possibles. Une fois la case cochée, la table Columns Mapping apparaît.
Columns Mapping	Complétez ce tableau afin de définir le colonnes de sortie à remplacer et les colonnes de référence de substitution. Les colonnes à renseigner sont : - Output Column : sélectionnez la colonne qui vous intéresse dans la liste déroulante. Dans cette liste, les deux colonnes MATCHING_WEIGHT et MATCHING_DISTANCES sont définies par défaut. Les autres colonnes sont disponibles lorsque vous les avez définies dans l'éditeur du schéma du composant. Pour plus d'informations sur ces deux colonnes par défaut, consultez Correspondance d'entrées utilisant les algorithmes Q-grams et Levenshtein ; - Lookup Column : sélectionnez la colonne qui vous intéresse dans la liste déroulante. Cette liste est disponible lorsqu'un lien Lookup a été ajouté afin de fournir au composant les colonnes de référence correspondantes. Cliquez sur l'icône d'import pour sélectionner une règle de rapprochement depuis le référentiel du Studio Talend. Lorsque vous cliquez sur l'icône d'import, un assistant Match Rule Selector s'ouvre pour vous permettre d'importer les règles de rapprochement du référentiel du Studio Talend et les utiliser dans votre Job. Vous pouvez importer des règles créées avec l'algorithme VSR. L'algorithme T-Swoosh ne fonctionne pas avec ce composant. Pour plus d'informations sur l'import de règles VSR, consultez Import de règles de mise en correspondance depuis le référentiel du Studio.
Input key attribute	Sélectionnez la ou les colonne(s) du flux principal devant être vérifiées par rapport à la colonne clé de référence (lookup). Note InformationsRemarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date. Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.
Lookup Key Attribute	Sélectionnez les colonnes clé du flux lookup que vous utiliserez comme référence, c'est-à-dire auxquelles vous souhaitez comparer les colonnes du flux d'entrée.
Matching Function	Sélectionnez l'algorithme de correspondance dans la liste : Exact Match : associe chaque entrée traitée à toutes les entrées possibles de référence qui ont exactement la même valeur. Levenshtein : cette option se base sur la théorie de la distance d'édition. Elle calcule le nombre d'insertions, suppressions ou substitutions nécessaires pour qu'une entrée corresponde à l'entrée de référence. Metaphone : cette option se base sur un algorithme phonétique afin d'indexer les entrées selon leur prononciation. Elle charge d'abord la phonétique de toutes les entrées du flux lookup de référence, puis vérifie toutes les entrées du flux principal par rapport aux entrées du flux de référence. Double Metaphone : nouvelle version de l'algorithme phonétique Métaphone, qui produit des résultats plus précis que l'algorithme originel. Il peut retourner un code primaire et un code secondaire pour une chaîne de caractères. Cela est utile dans des cas ambigus, mais également pour de multiples variantes de noms de famille aux origines communes. Exact - ignore case : met en correspondance chaque entrée traitée à toutes les entrées de référence possibles ayant les mêmes valeurs, en ignorant la valeur de la casse. Soundex : met en correspondance les entrées traitées selon un algorithme phonétique de prononciation britannique standard. Soundex FR : met en correspondance les entrées traitées selon un algorithme phonétique de prononciation française standard. Jaro : met en correspondance les entrées traitées selon des erreurs d'orthographe. q-grams : met en correspondance les entrées traitées en divisant les chaînes de caractères en blocs de lettres de longueur q, afin de créer un nombre de longueurs q-grammes. Le résultat de correspondance est donné comme le nombre de correspondances entre les q-grammes d'entrée et de référence, divisé par le nombre de q-grammes possibles. Hamming : calcule le nombre minimal de substitutions requises pour transformer une chaîne de caractères en une autre de la même longueur. Par exemple, la distance de Hamming entre "masking" et "pairing" est égale à 3. custom... : permet de charger un algorithme externe de mise en correspondance à partir d'une bibliothèque Java. La colonne Custom Matcher est activée lorsque vous sélectionnez cette option. Pour plus d'informations concernant le chargement d'une bibliothèque Java externe, consultez le tLibraryLoad.
Custom Matcher	Saisissez le chemin pointant vers la classe personnalisée (algorithme externe de mise en correspondance) que vous souhaitez utiliser. Ce chemin d'accès est défini par vos soins dans le fichier de la bibliothèque (fichier .jar), que vous pouvez importer à l'aide du composant tLibraryLoad. Pour plus d'informations, consultez Créer un algorithme de correspondance personnalisé. Tokenized measure La segmentation (tokenization) est le concept de diviser une chaîne de caractères en mots. Sélectionnez la méthode à utiliser pour calculer une mesure segmentée pour l'algorithme sélectionné : NO : aucune méthode de segmentation n'est utilisée sur la chaîne de caractères. Avec cette option, "John Doe" et "Jon Doe" doivent correspondre. Same place : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2. Associe chaque élément de la première liste à l'élément à la même position dans la seconde liste. Avec cette méthode, "She is red and he is pink" et "Catherine is red and he is pink" doivent correspondre. Same order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Essaye d'associer les éléments de la première liste aux éléments de la seconde, pris dans le même ordre. Avec cette méthode, "John Doe" et "John B. Doe" correspondent. Cette méthode doit être utilisée uniquement avec des chaînes de caractères contenant peu de mots, sinon, le nombre de combinaisons possible peut être vraiment important. Any order : divise les deux chaînes de caractères en mots, en deux listes, list1 et list2 et suppose que la première liste est plus courte que la seconde. Tente d'attribuer chaque mot de la première liste à un mot de la seconde, pour une similarité globale la plus élevée possible. Avec cette méthode, "John Doe" et "Doe John" correspondent.
Weight	Définissez un poids numérique pour chaque attribut (colonne) de la définition de clé. Les valeurs doivent être supérieures à 0.
Handle Null	Handle Null Pour gérer des valeurs Null, sélectionnez dans la liste l'opérateur à utiliser sur la colonne : Null Match Null : un attribut Null correspond à un autre attribut Null uniquement. Null Match None : un attribut Null ne correspond jamais à un autre attribut. Null Match All : un attribut Null correspond à n'importe quelle autre valeur d'un attribut. Par exemple, s'il y a deux colonnes name et firstname pour lesquelles le nom n'est jamais null, le prénom peut être null. S'il y a deux enregistrements : "Doe", "John" "Doe", "" Selon l'opérateur sélectionné, ces deux enregistrements peuvent correspondre ou ne pas correspondre : Null Match Null : ne correspondent pas. Null Match None : ne correspondent pas. Null Match All : correspondent. Pour les enregistrements : "Doe", "" "Doe", "" Null Match Null : correspondent. Null Match None : ne correspondent pas. Null Match All : correspondent.
Input Column	Au besoin, sélectionnez la ou les colonne(s) de flux d'entrée selon laquelle (lesquelles) vous souhaitez partitionner les données traitées en blocs, ce qui est habituellement appelé "blocking". La création de blocs (ou de groupes) réduit le nombre de paires d'enregistrements nécessitant examen. Lors de la création de blocs, les données d'entrée sont partitionnées en blocs exhaustifs créés pour augmenter la proportion de correspondances observées lors de la réduction du nombre de paires à comparer. Les comparaisons sont limitées aux paires d'enregistrements dans chaque bloc. Utiliser des colonnes de bloc est très utile lorsque vous traitez des données très volumineuses.
Matching strategy	Sélectionnez le type de correspondance en sortie qui répond le mieux à vos besoins. Choisissez : All matches : écrit en sortie les enregistrements qui correspondent ou peuvent correspondre. Best match : écrit en sortie uniquement l'enregistrement possédant le plus haut score de correspondance. First match : écrit en sortie le premier enregistrement correspondant. Si aucun ne correspond, la première correspondance possible sera écrite en sortie. Last match : écrit en sortie le dernier enregistrement correspondant. Si aucun ne correspond, la dernière correspondance possible sera écrite en sortie. Au moment de sélectionner votre stratégie de correspondance, les scores de correspondance sont cruciaux. Définissez-les dans les champs Possible match interval dans la vue Advanced settings.

Advanced settings

Propriétés	Description
Matching Algorithm	Sélectionnez un algorithme dans la liste. Un seul algorithme est disponible pour le moment. Simple VSR : cet algorithme est basé sur la méthode de modèle vectoriel, qui spécifie comment deux enregistrements peuvent correspondre. Pour plus d'informations sur la manière d'importer des règles basées sur l'algorithme VSR, consultez Import de règles de mise en correspondance depuis le référentiel du Studio.
Possible match interval	Saisissez une valeur minimale et une valeur maximale. minimum : définissez la distance minimum d'enregistrements autorisée afin de correspondre à la référence (les valeurs doivent être supérieures à 0). maximum : définissez la distance maximum d'enregistrements autorisée afin de correspondre à la référence (les valeurs doivent être inférieures à 1). Par exemple, si vous définissez 0,5 comme valeur minimum et 0,9 comme valeur maximum, les scores égaux ou supérieurs à 0,9 indiquent une correspondance. Ceux compris entre 0,5 exclu et 0,9 exclu indiquent une correspondance possible et les autres résultats indiquent qu'il n'y a pas de correspondance.
Store on disk (Stocker sur le disque)	Cochez cette case si vous souhaitez stocker les blocs de données traitées sur le disque, afin d'optimiser les performances de votre système.
Statistiques du tStatCatcher	Cochez cette case pour collecter les données de log au niveau des composants.

Variables globales

Variables	Description
Variables globales	NB_MATCH_LINE : nombre de lignes correspondant à l'algorithme de comparaison. Cette variable est une variable After et retourne un entier. NB_POSSIBLE_MATCH_LINE : nombre de lignes pouvant correspondre à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier. NB_NONE_MATCH_LINE : nombre de lignes ne correspondant pas à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier. ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables.

Variables

Description

Variables globales

NB_MATCH_LINE : nombre de lignes correspondant à l'algorithme de comparaison. Cette variable est une variable After et retourne un entier.

NB_POSSIBLE_MATCH_LINE : nombre de lignes pouvant correspondre à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier.

NB_NONE_MATCH_LINE : nombre de lignes ne correspondant pas à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables.

Utilisation

Conseils d'utilisation	Description
Règle d'utilisation	Ce composant n'est pas un composant de début, il nécessite deux composants d'entrée, et un ou plusieurs composant(s) de sortie.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici