Pour collecter les doublons du flux d'entrée selon le type de rapprochement défini, Levenshtein et Jaro-Winkler dans cet exemple, procédez comme suit :
Procédure
Si vous traitez des jeux de données volumineux, cochez la case Store on disk (Stocker sur le disque) dans le menu Advanced settings (Paramètres avancés) et :
dans le champ Max buffer size (Taille maximale de la mémoire tampon), saisissez la taille de la mémoire physique que vous souhaitez allouer aux données traitées.
Dans le champ Temporary data directory path (Chemin d'accès au répertoire temporaire des données), configurez le chemin d'accès au répertoire où stocker le fichier temporaire.
Pour stocker localement les données qui seront analysées par l'analyse courante, cochez la case Allow drill down (Autoriser l'exploration).
Sauvegardez les paramètres dans l'éditeur d'analyse de rapprochement et appuyez sur la touche F6.
L'analyse est exécutée. La règle de rapprochement et la clé de bloc sont calculées par rapport au jeu de données complet et la vue des résultats d'analyse est ouverte dans l'éditeur.
Dans cette vue, le graphique donne une vue d'ensemble concernant les doublons dans les données analysées. Dans la première table, vous pouvez voir les statistiques concernant le nombre d'enregistrements traités, les enregistrements distincts ayant une seule occurrence, les enregistrements en doublon (enregistrements rapprochés) et les enregistrements suspects ne correspondant pas à la règle. Les enregistrements en doublon représentent les enregistrements rapprochés avec un bon score - sous le seuil de confiance. L'un des enregistrement de la paire rapprochée est un doublon et devrait être supprimée, tandis que l'autre est l'enregistrement consolidé.
Dans la seconde table, vous pouvez voir les statistiques concernant le nombre de chaque groupe et le nombre d'enregistrements dans chaque groupe. Vous pouvez cliquez sur la colonne de la table de votre choix pour trier les résultats.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.