Standardisation de valeurs via un dictionnaire

Standardiser des valeurs dans des cellules avec l'autocomplétion

Lorsque vous modifiez une cellule dans une colonne dont le type sémantique se base sur un dictionnaire ou un type composé, l'application suggère automatiquement des valeurs faisant partie de ce dictionnaire, au cours de votre saisie, pour s'assurer que la colonne suit le même standard.

Dans cet exemple, vous utilisez un jeu de données contenant des données clients, notamment des codes d'États des États-Unis. Comme toutes les occurrences de Texas n'ont pas été correctement saisies au format respectant le code à deux lettres, une partie des données est considérée comme invalide dans la colonne State, comme indiqué dans la barre de statistiques. Vous allez isoler les lignes contenant des erreurs, modifier l'une des cellules grâce à l'autocomplétion et appliquer la modification à toutes les cellules identiques, dans toute la colonne en une opération.

Jeu de données contenant des informations clients comprenant des codes d'État des États-Unis.

Avant de commencer

L'autocomplétion n'est disponible que si le type sémantique de la colonne est basé sur un dictionnaire de valeurs ou un type composé présent par défaut dans Talend Data Preparation, ou que vous avez créé avec Talend Dictionary Service. Pour plus d'informations concernant la création de types sémantiques personnalisés ou la modification de types sémantiques existants, consultez Enrichissement des bibliothèques de types sémantiques.

Procédure

Dans la colonne State, cliquez sur la partie orange de la barre de statistiques et cliquez sur Select rows with invalid values for State pour appliquer un filtre et isoler les lignes comprenant Texas.
Dans la colonne State, double-cliquez sur l'une des occurrences de Texas.
Vous pouvez désormais modifier le contenu de la cellule. Lorsque vous supprimez la valeur précédente, une liste déroulante s'ouvre, vous suggérant toutes les valeurs faisant partie du type sémantique US State Code basé sur un dictionnaire, classées par ordre alphabétique.
Étant donné que le code du Texas ne fait pas partie des premiers résultats affichés, commencez à saisir T pour voir les résultats retournés.
Plus vous saisissez de lettres, plus les résultats sont précis. Si la valeur souhaitée peut être trouvée dans la liste d'origine, vous pouvez directement la sélectionner.
Dans cette liste raccourcie, sélectionnez le code correspondant au Texas, TX.
Cochez la case Apply to all cells with this value qui s'affiche une fois que vous avez terminé de saisir ou de sélectionner une valeur.
La modification apportée dans cette cellule va également s'appliquer à toutes les autres valeurs incorrectes.
Cliquez sur Submit.

Résultats

Grâce aux suggestions, vous êtes sûr(e) que la nouvelle valeur est appliquée au bon format. Toutes les autres occurrences incorrectes de Texas ont été remplacées par le code d'État TX en une opération. La barre de statistiques indique à présent que toutes les données dans la colonne State sont valides.

Standardiser automatiquement des valeurs dans une colonne

Vous pouvez utiliser la fonction Standardize value (fuzzy matching) (Standardiser la valeur) pour trouver la valeur correcte la plus proche pour les données invalides contenues dans une colonne.

La fonction compare les données invalides contenues dans une colonne avec les valeurs définies pour le type sémantique actuel de la colonne. Elle va ensuite récupérer la valeur valide, si le palier de correspondance sélectionné est atteint. Cette fonction n'est disponible que si le type sémantique est basé sur un dictionnaire de valeurs ou un type composé, présent par défaut dans Talend Data Preparation, ou que vous avez créé avec Talend Dictionary Service. Pour plus d'informations concernant la création de types sémantiques personnalisés ou la modification de types sémantiques existants, consultez Enrichissement des bibliothèques de types sémantiques.

Imaginons que vous devez travailler sur un jeu de données contenant différentes informations sur des clients basés aux États-Unis, telles que leurs noms, adresses e-mail, ainsi que l’État dans lequel ils vivent.

Comme vous pouvez le voir dans l'en-tête de la colonne State, les données sont bien reconnues en tant qu’états américains, cependant comme le montre la barre de statistiques, certaines des entrées contiennent des noms invalides.

Colonne State sélectionnée ayant des noms invalides.

En une seule action, vous allez corriger ces valeurs invalides, en les remplaçant par la valeur correcte extraite du dictionnaire, ou type sémantique US State, qui contient une liste exhaustive de tous les États des États-Unis.

Remarque : La fonction Standardize value (fuzzy matching) ne supporte pas les caractères asiatiques.

Procédure

Cliquez sur l'en-tête de la colonne State pour sélectionner son contenu.
Dans le panneau des fonctions, saisissez Standardize values et cliquez sur le résultat pour ouvrir les options de la fonction associée.
Dans la liste déroulante Match threshold (Seuil pour le rapprochement), sélectionnez le pourcentage de correspondance qui doit être atteint entre la valeur invalide et la valeur valide pour que la correction s'effectue.
Les trois valeurs de pourcentage suivantes sont disponibles :
- High (Haut) : Seules les valeurs avec au moins 90 % de correspondance avec la valeur de référence sont remplacées.
- Default (Par défaut) : Seules les valeurs avec au moins 80 % de correspondance avec la valeur de référence sont remplacées.
- None (Aucun) : Remplace les valeurs invalides par la valeur valide la plus proche.
C'est l'algorithme de Levenshtein qui est utilisé pour gérer la correspondance entre les données. Dans le cas d'une chaîne composée, le processus de rapprochement se divise en quatre étapes :
1. Une recherche est effectuée sur la chaîne entière et sur chaque unité lexicale.
2. Les valeurs de dictionnaire qui ont moins de trois caractères de différence avec la chaîne complète ou avec l'une des chaînes lexicales sont récupérés.
3. Une distance sur les paires possibles est calculée, afin de récupérer les meilleures.
4. Le seuil de rapprochement choisi par l'utilisateur ou l'utilisatrice filtre les résultats, en fonction de la distance.
Exemple
- Clermont Talend correspond à Clermont, grâce à la première chaîne lexicale.
- Clermont-Ferra correspond à Clermont-Ferrand car il y a moins de trois caractères de différence avec la chaîne complète.
- Clermon-Ferant correspond à Clermont car il y a plus de trois caractères de différence avec la chaîne complète, mais un seul caractère de différence avec la chaîne lexicale Clermont.
Cliquez sur le bouton Preview (Prévisualisation) pour prévisualiser le résultat de la fonction et cliquez sur Submit (Soumettre) pour l'appliquer.

Résultats

Les valeurs invalides ont été uniformisées en utilisant le dictionnaire des États américains.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Standardisation de valeurs via un dictionnaire

Standardiser des valeurs dans des cellules avec l'autocomplétion

Avant de commencer

Procédure

Résultats

Standardiser automatiquement des valeurs dans une colonne

Procédure

Exemple

Résultats

Cette page vous a-t-elle aidé ?