Pour collecter les doublons du flux d'entrée selon le type de rapprochement défini, Levenshtein et Jaro-Winkler dans cet exemple, procédez comme suit :
Procédure
Si vous traitez des jeux de données volumineux, cochez la case Store on disk dans la vue Analysis parameter et :
dans le champ Max buffer size, saisissez la taille de la mémoire physique que vous souhaitez allouer aux données traitées.
Dans le champ Temporary data directory path, configurez le chemin d'accès au répertoire où stocker le fichier temporaire.
Sauvegardez les paramètres dans l'éditeur d'analyse de rapprochement et appuyez sur la touche F6.
L'analyse est exécutée. La règle de rapprochement et la clé de bloc sont calculées par rapport au jeu de données complet et la vue Analysis Results est ouverte dans l'éditeur.
Dans cette vue, le graphique donne une vue d'ensemble concernant les doublons dans les données analysées. Dans la première table, vous pouvez voir les statistiques concernant le nombre d'enregistrements traités, les enregistrements distincts ayant une seule occurrence, les enregistrements en doublon (enregistrements rapprochés) et les enregistrements suspects ne correspondant pas à la règle. Les enregistrements en doublon représentent les enregistrements rapprochés avec un bon score - sous le seuil de confiance. L'un des enregistrement de la paire rapprochée est un doublon et devrait être supprimée, tandis que l'autre est l'enregistrement consolidé.
Dans la seconde table, vous pouvez voir les statistiques concernant le nombre de chaque groupe et le nombre d'enregistrements dans chaque groupe. Vous pouvez cliquez sur la colonne de la table de votre choix pour trier les résultats.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.