Configurer les composants
Procédure
-
Double-cliquez sur le tRecordMatching afin d'afficher sa vue Component et définir ses propriétés.
-
Cliquez sur le bouton Edit schema pour ouvrir une boîte de dialogue. Vous pouvez définir les données que vous souhaitez passer aux composants de sortie.
Dans cet exemple, l'objectif est de passer au composant tRecordMatching les colonnes name et email du premier composant tMysqlInput, ainsi que les colonnes ref_name et ref_ email du second composant tMysqlInput.Les colonnes MATCHING_DISTANCE et MATCHING_WEIGHT du schéma de sortie sont définies par défaut.La valeur de la colonne MATCHING_WEIGHT est toujours comprise entre 0 et 1. C'est une distance globale entre les ensembles de colonnes (définis pour correspondre par les colonnes).La colonne MATCHING_DISTANCE affichera une distance pour chaque colonne sur laquelle a été utilisé un algorithme. Les résultats seront séparés pas une barre verticale.Cliquez sur OK pour fermer la boîte de dialogue.
- Dans la zone Key Definition de la vue Basic settings du composant tRecordMatching, cliquez sur le bouton [+] afin d'ajouter deux colonnes à la liste.
-
Sélectionnez les colonnes d'entrée et de sortie sur lesquelles vous voulez effectuer le rapprochement flou, à partir des colonnes Input key attribute et Lookup key attribute respectivement.
Dans cet exemple, sélectionnez les colonnes name et email comme attributs d'entrée, et les colonnes ref-name et ref_email comme attributs de référence.Note InformationsRemarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.
Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.
- Cliquez sur la colonne Matching type et sélectionnez q-gram dans la liste, la méthode devant être utilisée sur la première colonne, afin de vérifier les données d'entrée, par rapport aux données de référence.
-
Paramétrez le type de correspondance pour la seconde colonne, Levenshtein dans cet exemple.
Les valeurs minimale et maximale de correspondance possible sont définies dans la vue Advanced settings. Vous pouvez modifier les valeurs par défaut.
- dans la liste Tokenized measure, choisissez de ne pas utiliser une mesure segmentée pour les algorithmes sélectionnés.
- Dans la colonne Weight, définissez un poids pour chacune des colonnes utilisées comme attributs de clé.
- Cliquez dans la cellule de la colonne Handle Null et sélectionnez l'opérateur à utiliser pour gérer les attributs null dans les colonnes.
-
Si nécessaire, cliquez sur le bouton [+] sous la table Blocking Selection pour ajouter une ou plusieurs lignes. Cliquez dans la ligne et sélectionnez dans la liste la colonne à utiliser comme valeur de bloc.
Utiliser une valeur de bloc réduit le nombre de paires d'enregistrements à examiner. Les données d'entrée sont partitionnées en blocs exhaustifs, selon la valeur de bloc. Le nombre de paires à comparer est réduit, car la comparaison est restreinte aux paires d'enregistrements dans chaque bloc. Consultez Comparer les colonnes et regrouper dans le flux de sortie les enregistrements en doublon ayant la même clé fonctionnelle dans la section Identification pour un scénario relatif à la valeur de bloc.
- Cliquez sur l'onglet Advanced settings pour ouvrir la vue correspondante et vous assurer de sélectionner l'algorithme Simple VSR.
-
Double-cliquez sur le premier composant tLogRow afin d'afficher sa vue Basic settings. Dans la zone Mode, sélectionnez Table, afin d'afficher le fichier source et les résultats du tRecordMatching ensemble, pour pouvoir les comparer.
- Répétez l'opération pour les deux autres composants tLogRow.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.