Règles avec l'algorithme VSR
L'algorithme VSR prend un ensemble d'enregistrements en entrée et regroupe les doublons rencontrés selon les règles de rapprochement définies.
Cet algorithme compare des paires d'enregistrements et les assigne à des groupes. Le premier enregistrement traité dans chaque groupe est l'enregistrement maître du groupe. L'ordre des enregistrements a donc une importance et peut influencer le résultat du processus de création des enregistrements maître.
L'algorithme VSR compare chaque enregistrement par rapport au maître de chaque groupe et utilise les distances calculées, depuis les enregistrements maître, pour décider du groupe auquel un enregistrement doit appartenir.
Dans l'analyse de rapprochement et les composants de rapprochement, les résultats des mises en correspondance via l'algorithme VSR varient selon l'ordre des enregistrements d'entrée. Si possible, placez d'abord, dans le flux d'entrée, les enregistrements les plus fiables, pour une meilleure précision de l'algorithme.
Notez que les composants de rapprochement, notamment les composants de rapprochement Hadoop s'exécutent uniquement avec des règles configurées avec l'algorithme VSR.
Vous pouvez importer et tester la règle sur vos données dans l'éditeur d'analyse de rapprochement. Pour plus d'informations, consultez Import de règles de rapprochement depuis le référentiel.
Vous pouvez également importer la règle dans l'assistant de configuration du tMatchGroup et dans d'autres composants de rapprochement, notamment les composants Hadoop et utiliser cette règle dans les Jobs de rapprochement. Pour plus d'informations, consultez la documentation du composant tMatchGroup.
Définir une clé de bloc pour l'analyse de rapprochement
About this task
Définir une clé de bloc n'est pas obligatoire mais recommandé. Utiliser une clé de bloc permet de partitionner les données en blocs et de réduire le nombre d'enregistrements à examiner, puisque les comparaisons sont restreintes aux paires d'enregistrements au sein de chaque bloc. Utiliser des clés de bloc peut être très utile lors du traitement d'un ensemble de Big Data.