Utiliser une correspondance d'entrées utilisant les algorithmes Q-grams et Levenshtein
Ce scénario s'applique uniquement à Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend MDM Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
Ce scénario décrit un Job utilisant une règle de rapprochement basée sur l'algorithme VSR. L'objectif de ce Job est de :
-
rapprocher les entrées de la colonne name des entrées du fichier d'entrée de référence, en divisant les chaînes de caractères en blocs de longueur q, où q est de trois, afin de créer un certain nombre de q-grammes. Le résultat de correspondance est donné comme le nombre de correspondances entre les q-grammes d'entrée et de référence, divisé par le nombre de q-grammes possibles.
-
vérifier la distance d'édition entre les entrées de la colonne email du fichier d'entrée et celles du fichier d'entrée de référence.
Les sorties de ces deux types de correspondances sont écrites dans trois fichiers de sortie : le premier pour les valeurs de correspondance, le deuxième pour les valeurs de correspondance possible, et le troisième pour les valeurs n'ayant aucune correspondance dans le fichier de référence.
Dans ce scénario, vous avez déjà stocké les schémas principaux et de référence dans le Repository. Pour plus d'informations concernant le stockage des schémas de métadonnées dans la vue Repository, consultez Gestion des métadonnées dans le Studio Talend.
La table d'entrée principale contient sept colonnes : code, name, address, zipcode, city, email et col7. Vous allez effectuer un rapprochement flou sur deux colonnes : name et email.