Accéder au contenu principal Passer au contenu complémentaire

Règles avec l'algorithme VSR

L'algorithme VSR prend un ensemble d'enregistrements en entrée et regroupe les doublons rencontrés selon les règles de rapprochement définies.

Cet algorithme compare des paires d'enregistrements et les assigne à des groupes. Le premier enregistrement traité dans chaque groupe est l'enregistrement maître du groupe. L'ordre des enregistrements a donc une importance et peut influencer le résultat du processus de création des enregistrements maître.

L'algorithme VSR compare chaque enregistrement par rapport au maître de chaque groupe et utilise les distances calculées, depuis les enregistrements maître, pour décider du groupe auquel un enregistrement doit appartenir.

Dans l'analyse de rapprochement et les composants de rapprochement, les résultats des mises en correspondance via l'algorithme VSR varient selon l'ordre des enregistrements d'entrée. Si possible, placez d'abord, dans le flux d'entrée, les enregistrements les plus fiables, pour une meilleure précision de l'algorithme.

Notez que les composants de rapprochement, notamment les composants de rapprochement Hadoop s'exécutent uniquement avec des règles configurées avec l'algorithme VSR.

Vous pouvez importer et tester la règle sur vos données dans l'éditeur d'analyse de rapprochement. Pour plus d'informations, consultez Import de règles de rapprochement depuis le référentiel.

Vous pouvez également importer la règle dans l'assistant de configuration du tMatchGroup et dans d'autres composants de rapprochement, notamment les composants Hadoop et utiliser cette règle dans les Jobs de rapprochement. Pour plus d'informations, consultez la documentation du composant tMatchGroup.

Définir une clé de bloc pour l'analyse de rapprochement

Pourquoi et quand exécuter cette tâche

Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements au sein de chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement d'un ensemble de Big Data.

Procédure

  1. Dans l'éditeur de règles et dans la zone Generation of Blocking Key (Génération de clé de bloc), cliquez sur Add new item (Ajouter un élément) pour ajouter une ligne à la table.
  2. Configurez les paramètres de la clé de bloc.
    1. Dans la colonne Blocking Key Name (Nom de la clé de bloc), saisissez un nom pour la colonne à utiliser afin de réduire le nombre de paires d'enregistrements à comparer.
    2. Dans la colonne Pre-algorithm (Pré-algorithme), sélectionnez dans la liste déroulante un algorithme et configurez sa valeur si nécessaire.

      L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données avant de les traiter avec l'algorithme de rapprochement et ainsi améliorer les résultats du rapprochement de données.

    3. Dans la colonne Algorithm (Algorithme), sélectionnez dans la liste déroulante l'algorithme de rapprochement et configurez sa valeur si nécessaire.
    4. Dans la colonne Post-algorithm (Post-algorithme), sélectionnez dans la liste déroulante un algorithme et configurez sa valeur si nécessaire.
      L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données. L'algorithme est utilisé pour nettoyer ou standardiser les données après leur traitement avec l'algorithme de rapprochement et améliorer les résultats du rapprochement de données.
  3. Si nécessaire, répétez les étapes pour ajouter autant de clés de bloc que nécessaire.
    Lorsque vous importez une règle avec de nombreuses clés de bloc dans l'éditeur d'analyse de rapprochement, seule une clé de bloc sera générée et affichée dans la colonne BLOCK_KEY de la table Data.
    Pour plus d'informations concernant les paramètres de clé de bloc, consultez la documentation du tGenKey.

Définir une clé de rapprochement

Procédure

  1. Dans l'éditeur de règles et dans la table Matching Key (Clé de rapprochement), cliquez sur Add new item (Ajouter un élément) pour ajouter une ligne à la table.
  2. Configurez les paramètres de la clé de rapprochement.
    1. Dans la colonne Match Key Name (Nom de la clé de rapprochement), saisissez le nom de votre choix pour la clé de rapprochement.
    2. Dans la colonne Matching Function (Fonction de rapprochement), sélectionnez dans la liste déroulante le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme externe personnalisé.
      Utilisez les méthodes de rapprochement Levenshtein et Jaro-Winkler sur les prénoms et noms de famille, respectivement et récupérez les enregistrements en doublon.
    3. Si vous avez sélectionné Custom (Personnalisée) comme Matching Function (Fonction de rapprochement), naviguez jusqu'au fichier JAR de l'algorithme personnalisé et sélectionnez-le, dans la colonne Custom Matcher.
    4. Dans la colonne Confidence Weight (Importance), configurez un poids numérique (entre 1 et 10) sur la colonne que vous souhaitez utiliser comme clé de rapprochement.
      Cette valeur est utilisée pour donner plus ou moins d'importance à certaines colonnes lors du rapprochement.
    5. Dans la colonne Handle Null (Gestion des nulls), spécifiez comment traiter les enregistrements de données contenant des valeurs nulles.
    Pour plus d'informations concernant les paramètres des règles de rapprochement, consultez la documentation du tMatchGroup.
  3. Dans le champ Match threshold, saisissez le seuil de probabilité de rapprochement Deux enregistrements de données correspondent lorsque leur probabilité est supérieure à cette valeur.
    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1. Au-dessus de ce seuil, vous pouvez avoir confiance en la qualité du groupe.
  4. Pour définir une seconde règle de rapprochement, placez votre curseur sur le coin supérieur droit de la table Matching Key (Clé de rapprochement) et cliquez sur Add a new rule (Ajouter une règle).
    Suivez les étapes pour créer une règle de rapprochement.
    Lorsque vous définissez de multiples conditions dans l'éditeur de règle de rapprochement, une opération de rapprochement OR est effectuée sur les données analysées. Les enregistrements sont évalués par rapport à la première règle.
  5. Facultatif : Pour remplacer les noms par défaut des règles, cliquez sur Edit/Sort Rule Names (Modifier/Trier les noms des règles), en haut à droite de la table.
    Vous pouvez également utiliser les flèches de la boîte de dialogue pour modifier l'ordre des règles et décider de la règle à exécuter en premier.
  6. Cliquez sur OK.
    Les règles sont renommées et ordonnées comme défini dans la table Matching Key.
  7. Sauvegardez les paramètres de la règle de rapprochement.
    La règle de rapprochement est enregistrée et listée sous le nœud Libraries (Bibliothèques) > Rules (Règles) > Match (Rapprochement) dans l'arborescence DQ repository (Référentiel DQ).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.