Comment le tMatchPairing calcule-t-il l'échantillon de paires suspectes ?
La liste de paires suspectes peut être très longue. Vous ne libellez qu'un sous-ensemble de cette liste, afin d'identifier des groupes potentiels de doublons.
Vous pouvez ensuite utiliser l'apprentissage automatique pour prédire des valeurs sur toute la liste. Ensuite, il est possible de générer en sortie un échantillon de cette liste, dont la taille est définie manuellement. L'échantillon est choisi aléatoirement.
Pour un exemple de gestion des tâches de regroupement pour décider des relations entre les paires d'enregistrements via Talend Data Stewardship, consultez .