tRecordMatching
Ce composant assure la qualité des données de n'importe quelle source de données en les comparant aux données de référence.
Le tRecordMatching fait une jointure sur deux tables en effectuant un rapprochement flou sur plusieurs colonnes, à l'aide d'une grande variété d'algorithmes de comparaison. Il compare des colonnes du flux principal à des colonnes du flux de référence (lookup) et écrit les données qui correspondent, les correspondances possibles et les données en rejet. Au moment de définir votre stratégie de correspondance, les scores de correspondance définis par l'utilisateur ou l'utilisatrice sont cruciaux pour déterminer le niveau de correspondance des données qui vous intéressent.
Ce composant n'est pas intégré par défaut à votre Studio Talend. Vous devez l'installer à l'aide du gestionnaire des fonctionnalités. Pour plus d'informations, consultez Installer les fonctionnalités à l'aide du Gestionnaire des fonctionnalités.
Propriétés du tRecordMatching Standard
Ces propriétés sont utilisées pour configurer le tRecordMatching s'exécutant dans le framework de Jobs Standard.
Le composant tRecordMatching Standard appartient à la famille Qualité de données.
Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend Data Services Platform et Talend Data Fabric.
Basic settings
Propriétés | Description |
---|---|
Schema et Edit schema |
|
Replace output column with lookup column if matches or possible matches |
Cochez cette case pour remplacer la colonne de sortie par la colonne de référence en cas de correspondance ou de valeurs de correspondances possibles. Une fois la case cochée, la table Columns Mapping apparaît. |
Columns Mapping |
|
Input key attribute |
Sélectionnez la ou les colonne(s) du flux principal devant être vérifiées par rapport à la colonne clé de référence (lookup). Note InformationsRemarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.
Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères. |
Lookup Key Attribute |
Sélectionnez les colonnes clé du flux lookup que vous utiliserez comme référence, c'est-à-dire auxquelles vous souhaitez comparer les colonnes du flux d'entrée. |
Matching Function |
Sélectionnez l'algorithme de correspondance dans la liste : Exact Match : associe chaque entrée traitée à toutes les entrées possibles de référence qui ont exactement la même valeur. Levenshtein : cette option se base sur la théorie de la distance d'édition. Elle calcule le nombre d'insertions, suppressions ou substitutions nécessaires pour qu'une entrée corresponde à l'entrée de référence. Metaphone : cette option se base sur un algorithme phonétique afin d'indexer les entrées selon leur prononciation. Elle charge d'abord la phonétique de toutes les entrées du flux lookup de référence, puis vérifie toutes les entrées du flux principal par rapport aux entrées du flux de référence. Double Metaphone : nouvelle version de l'algorithme phonétique Métaphone, qui produit des résultats plus précis que l'algorithme originel. Il peut retourner un code primaire et un code secondaire pour une chaîne de caractères. Cela est utile dans des cas ambigus, mais également pour de multiples variantes de noms de famille aux origines communes. Exact - ignore case : met en correspondance chaque entrée traitée à toutes les entrées de référence possibles ayant les mêmes valeurs, en ignorant la valeur de la casse. Soundex : met en correspondance les entrées traitées selon un algorithme phonétique de prononciation britannique standard. Soundex FR : met en correspondance les entrées traitées selon un algorithme phonétique de prononciation française standard. Jaro : met en correspondance les entrées traitées selon des erreurs d'orthographe. q-grams : met en correspondance les entrées traitées en divisant les chaînes de caractères en blocs de lettres de longueur q, afin de créer un nombre de longueurs q-grammes. Le résultat de correspondance est donné comme le nombre de correspondances entre les q-grammes d'entrée et de référence, divisé par le nombre de q-grammes possibles. Hamming : calcule le nombre minimal de substitutions requises pour transformer une chaîne de caractères en une autre de la même longueur. Par exemple, la distance de Hamming entre "masking" et "pairing" est égale à 3. custom... : permet de charger un algorithme externe de mise en correspondance à partir d'une bibliothèque Java. La colonne Custom Matcher est activée lorsque vous sélectionnez cette option. Pour plus d'informations concernant le chargement d'une bibliothèque Java externe, consultez le tLibraryLoad. |
Custom Matcher |
|
Weight |
Définissez un poids numérique pour chaque attribut (colonne) de la définition de clé. Les valeurs doivent être supérieures à 0. |
Handle Null |
Handle Null Pour gérer des valeurs Null, sélectionnez dans la liste l'opérateur à utiliser sur la colonne : Null Match Null : un attribut Null correspond à un autre attribut Null uniquement. Null Match None : un attribut Null ne correspond jamais à un autre attribut. Null Match All : un attribut Null correspond à n'importe quelle autre valeur d'un attribut. Par exemple, s'il y a deux colonnes name et firstname pour lesquelles le nom n'est jamais null, le prénom peut être null. S'il y a deux enregistrements : "Doe", "John" "Doe", "" Selon l'opérateur sélectionné, ces deux enregistrements peuvent correspondre ou ne pas correspondre : Null Match Null : ne correspondent pas. Null Match None : ne correspondent pas. Null Match All : correspondent. Pour les enregistrements : "Doe", "" "Doe", "" Null Match Null : correspondent. Null Match None : ne correspondent pas. Null Match All : correspondent. |
Input Column |
Au besoin, sélectionnez la ou les colonne(s) de flux d'entrée selon laquelle (lesquelles) vous souhaitez partitionner les données traitées en blocs, ce qui est habituellement appelé "blocking". La création de blocs (ou de groupes) réduit le nombre de paires d'enregistrements nécessitant examen. Lors de la création de blocs, les données d'entrée sont partitionnées en blocs exhaustifs créés pour augmenter la proportion de correspondances observées lors de la réduction du nombre de paires à comparer. Les comparaisons sont limitées aux paires d'enregistrements dans chaque bloc. Utiliser des colonnes de bloc est très utile lorsque vous traitez des données très volumineuses. |
Matching strategy |
Sélectionnez le type de correspondance en sortie qui répond le mieux à vos besoins. Choisissez :
|
Advanced settings
Propriétés | Description |
---|---|
Matching Algorithm |
Sélectionnez un algorithme dans la liste. Un seul algorithme est disponible pour le moment. Simple VSR : cet algorithme est basé sur la méthode de modèle vectoriel, qui spécifie comment deux enregistrements peuvent correspondre. Pour plus d'informations sur la manière d'importer des règles basées sur l'algorithme VSR, consultez Import de règles de mise en correspondance depuis le référentiel du Studio. |
Possible match interval |
Saisissez une valeur minimale et une valeur maximale. minimum : définissez la distance minimum d'enregistrements autorisée afin de correspondre à la référence (les valeurs doivent être supérieures à 0). maximum : définissez la distance maximum d'enregistrements autorisée afin de correspondre à la référence (les valeurs doivent être inférieures à 1). Par exemple, si vous définissez 0,5 comme valeur minimum et 0,9 comme valeur maximum, les scores égaux ou supérieurs à 0,9 indiquent une correspondance. Ceux compris entre 0,5 exclu et 0,9 exclu indiquent une correspondance possible et les autres résultats indiquent qu'il n'y a pas de correspondance. |
Store on disk (Stocker sur le disque) |
Cochez cette case si vous souhaitez stocker les blocs de données traitées sur le disque, afin d'optimiser les performances de votre système. |
Statistiques du tStatCatcher |
Cochez cette case pour collecter les données de log au niveau des composants. |
Variables globales
Variables | Description |
---|---|
Variables globales |
NB_MATCH_LINE : nombre de lignes correspondant à l'algorithme de comparaison. Cette variable est une variable After et retourne un entier. NB_POSSIBLE_MATCH_LINE : nombre de lignes pouvant correspondre à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier. NB_NONE_MATCH_LINE : nombre de lignes ne correspondant pas à l'algorithme de rapprochement. Cette variable est une variable After et retourne un entier. ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables. |
Utilisation
Conseils d'utilisation | Description |
---|---|
Règle d'utilisation |
Ce composant n'est pas un composant de début, il nécessite deux composants d'entrée, et un ou plusieurs composant(s) de sortie. |