Accéder au contenu principal Passer au contenu complémentaire

Rapprochement de deux enregistrements

Vous pouvez utiliser le composant tMatchGroup pour détecter des doublons et définir comment fusionner des enregistrements similaires afin de créer un enregistrement maître.

La création d'un enregistrement maître est un processus itératif : chaque nouvel enregistrement maître peut être utilisé pour trouver de nouveaux doublons.

Vous pouvez choisir entre deux algorithmes différents pour créer des enregistrements maître :

  • Simple VSR Matcher,
  • T-Swoosh. Cet algorithme est disponible uniquement dans le composant Standard.

La principale différence entre ces deux algorithmes, c'est que T-Swoosh crée, pour chaque enregistrement maître, un enregistrement qui n'existe pas dans la liste des enregistrements en entrée.

Rapprochement de deux mesures

Pour comparer un attribut de deux enregistrements, vous pouvez utiliser la fonction de rapprochement disponible de votre choix, comme Exact, Levenshtein et Jaro-Winkler, ou un algorithme de rapprochement personnalisé que vous avez créé.

Vous pouvez également comparer plusieurs attributs de deux enregistrements. Pour qu'une mise en correspondance s'effectue, les deux conditions suivantes doivent être réunies :

  • Lorsque vous utilisez l'algorithme T-Swoosh, le score pour chaque fonction de rapprochement dans la règle de rapprochement doit dépasser le seuil, si défini. Par défaut, le seuil est défini à 1. Ceci est l'équivalent d'une correspondance exacte pour la plupart des fonctions de rapprochement, excepté pour Exact - ignore case et, potentiellement, tout algorithme de rapprochement personnalisé.
  • Le score global, qui est un score pondéré des différentes fonctions de rapprochement, doit être supérieur au seuil de correspondance. Le score est égal à Σ(wi × si(r1,r2)) / Σwi, où wi correspond au poids numérique de la fonction de rapprochement i et si(r1,r2) correspond au score de la fonction de rapprochement i sur-enregistre r1 et r2 .
Configuration du composant tMatchGroup.

Dans cet exemple, le score pour la métrique Jaro-Winkler sur l'attribut fname doit être supérieur à 0.7 et le score global, avec un poids numérique de 1 sur chacune des deux mesures, doit être supérieur à 0.85.

Exemple de calcul de moyenne pondérée.
Cet exemple illustre le calcul de la moyenne pondérée qui correspond au score global de deux enregistrements similaires :
  1. Comme la valeur de Confidence Weight pour les deux attributs est configurée à 1, le poids normalisé de chaque attribut est 0.5.
  2. La distance de rapprochement de l'attribut est de 1 pour l'attribut lname et de 0.722... pour l'attribut fname.
  3. Le score est calculé de la manière suivante : 0.5 x 1 + 0.5 x 0.722... = 0.8611...

Règles de rapprochement

Vous pouvez définir différentes règles de rapprochement pour le même jeu de données.

Deux enregistrements correspondent si au moins une règle de rapprochement est satisfaite. Dès que deux enregistrements correspondent selon une règle donnée, les autres règles ne sont pas vérifiées.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.