Configurer la première passe
Procédure
-
Dans la vue Basic settings du tMatchGroup nommé pass1, sélectionnez Simple VSR dans la liste Matching Algorithm.
Dans ce scénario, la règle de rapprochement utilise l'algorithme VSR.
-
Cliquez sur le bouton Preview pour afficher l'assistant Configuration Wizard.
-
Cliquez sur et importez les clés de rapprochement depuis les règles de rapprochement créées et testées dans la perspective Profiling du Studio Talend et utilisez-les dans votre Job. Sinon, définissez les paramètres, des clés de rapprochement comme décrit dans les étapes ci-dessous.
Il est important d'importer ou de définir dans les propriétés simples du composant le même type de règle, sinon, le Job s'exécute avec les valeurs par défaut des paramètres n'étant pas compatibles avec le deux algorithmes.
-
Dans la table Key definition, cliquez sur le bouton [+] pour ajouter les colonnes sur lesquelles effectuer les opérations de rapprochement, lname dans ce scénario.
Note InformationsRemarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.
Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères.
- Sélectionnez l'algorithme Jaro-Winkler dans la colonne Matching Function.
- À partir de la liste Tokenized measure, sélectionnez Any order.
- Configurez la colonne Weight à 1 et, dans la colonne Handle Null, sélectionnez l'opérateur null à utiliser pour gérer les attributs nulls dans la colonne, Null Match Null dans ce scénario.
-
Cliquez sur le bouton [+] sous la table Blocking Selection pour ajouter une ou plusieurs lignes à la table, puis cliquez dans la ligne et sélectionnez dans la liste la colonne que vous souhaitez utiliser comme valeur de bloc, T_GEN_KEY dans cet exemple.
Utiliser une valeur de bloc réduit le nombre de paires d'enregistrements à examiner. Les données d'entrée sont partitionnées en blocs exhaustifs basés sur la clé fonctionnelle. Cela permet de diminuer le nombre de paires à comparer, puisque la comparaison est limitée aux paires d'enregistrements dans chaque bloc.
-
Si nécessaire, cliquez sur le bouton Edit schema pour ouvrir l'éditeur de schéma et visualiser le schéma récupéré du composant précédent dans le Job.
- Cliquez sur l'onglet Advanced settings et cochez la case Sort the output data by GID pour trier les données de sortie par leur ID de groupe.
- Cochez la case Deactivate matching computation when opening the wizard si vous ne souhaitez pas exécuter les règles de rapprochement lors de la prochaine ouverture de l'assistant.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.