L'algorithme T-Swoosh
Ce composant est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real Time Big Data Platform, Talend Data Services Platform, Talend MDM Platform et Talend Data Fabric.
Ce scénario décrit un Job simple comparant des colonnes dans le fichier d'entrée à l'aide de la méthode de rapprochement de Jaro-Winkler sur les colonnes lname and fname. Il groupe ensuite les enregistrements de sortie dans des flux de sortie :
-
Uniques : liste les enregistrements dont la taille du groupe (distance minimale calculée dans l'enregistrement) est égale à 1.
-
Matches : liste les enregistrements dont la qualité du groupe est supérieure ou égale au seuil défini dans le champ Confident match threshold.
-
Suspects : liste les enregistrements dont la qualité du groupe est inférieure au seuil défini dans le champ Confident match threshold.