Comment le tMatchPredict prédit-il des valeurs sur un jeu de données ?
Les enregistrements d'entrée peuvent être appariés ou non :
- Si les enregistrement d'entrée sont appariés, le tMatchPredict peut libeller les doublons suspects automatiquement.
- Si les enregistrement d'entrée n'ont pas été appariés, utilisez le modèle permettant d'apparier les données, généré par le tMatchPairing, pour calculer les doublons suspects.
Plutôt que de retourner des paires, le composant peut aussi retourner des groupes d'enregistrements qui correspondent entre eux, par l'ajout d'un étape de clustering dans l’algorithme. Vous pouvez définir les classes de clustering, qui sont, en règle générale, le libellé correspondant à un match.
L'algorithme utilisé pour le clustering calcule les composants connectés du graphe, où chaque nœud est un enregistrement. Une arête relie deux nœuds si la paire d'enregistrement possède le bon libellé.
Par exemple, si un enregistrement A correspond à un enregistrement B et que cet enregistrement B correspond à un enregistrement C, un groupe comprenant les enregistrements A, B et C est créé même si les enregistrements A et record C ne correspondent pas.