Pourquoi et quand exécuter cette tâche
Définir une clé de bloc n'est pas obligatoire mais fortement conseillé. Utiliser une clé de bloc pour partitionner des données en blocs réduit le nombre d'enregistrements nécessitant d'être comparés à des paires d'enregistrements dans chaque bloc. Utiliser des colonnes de bloc est très utile lors du traitement d'un jeu de données volumineux.
-
Dans la section Data, cliquez sur l'onglet Select Blocking Key.
-
Cliquez sur le nom des colonnes que vous souhaitez utiliser pour partitionner les données traitées en blocs.
Des clés de bloc ayant exactement le même nom que la colonne sélectionnée sont listées dans la table Blocking Key.
Cependant, une seule clé de bloc est générée et listée dans la colonne BLOCK_KEY de la table Data.
Par exemple, si vous utilisez un algorithme sur les colonnes country et lname afin de traiter les enregistrements ayant le même caractère de départ, les enregistrements de données ayant la même première lettre dans le nom du pays ou dans le nom de famille sont groupés dans le même bloc. La comparaison est restreinte à chaque enregistrement dans chaque bloc.
Pour supprimer une colonne de la table Blocking key, cliquez-droit dessus et sélectionnez Delete ou cliquez sur son nom dans la table Data.
-
Sélectionnez un algorithme pour la clé de bloc et configurez les autres paramètres dans la table Blocking Key selon vos besoins.
Dans cet exemple, seule une clé de bloc est utilisée. Le premier caractère de chaque mot dans la colonne country est récupéré et listé dans la colonne BLOCK_KEY.
-
Cliquez sur Chart pour calculer la clé générée, grouper les enregistrements d'exemple dans la table Data et afficher les résultats dans un diagramme.
Ce diagramme vous permet de visualiser les statistiques concernant le nombre de blocs et d'adapter les paramètres de bloc selon les résultats que vous souhaitez obtenir.