Standardisation de valeurs via un dictionnaire
Standardiser des valeurs dans des cellules avec l'autocomplétion
Lorsque vous modifiez une cellule dans une colonne dont le type sémantique se base sur un dictionnaire ou un type composé, l'application suggère automatiquement des valeurs faisant partie de ce dictionnaire, au cours de votre saisie, pour s'assurer que la colonne suit le même standard.
Dans cet exemple, vous utilisez un jeu de données contenant des données clients, notamment des codes d'États des États-Unis. Comme toutes les occurrences de Texas n'ont pas été correctement saisies au format respectant le code à deux lettres, une partie des données est considérée comme invalide dans la colonne State, comme indiqué dans la barre de statistiques. Vous allez isoler les lignes contenant des erreurs, modifier l'une des cellules grâce à l'autocomplétion et appliquer la modification à toutes les cellules identiques, dans toute la colonne en une opération.
Before you begin
Procedure
Results
Standardiser automatiquement des valeurs dans une colonne
Vous pouvez utiliser la fonction Standardize value (fuzzy matching) (Standardiser la valeur) pour trouver la valeur correcte la plus proche pour les données invalides contenues dans une colonne.
La fonction compare les données invalides contenues dans une colonne avec les valeurs définies pour le type sémantique actuel de la colonne. Elle va ensuite récupérer la valeur valide, si le palier de correspondance sélectionné est atteint. Cette fonction n'est disponible que si le type sémantique est basé sur un dictionnaire de valeurs ou un type composé, présent par défaut dans Talend Data Preparation, ou que vous avez créé avec Talend Dictionary Service. Pour plus d'informations concernant la création de types sémantiques personnalisés ou la modification de types sémantiques existants, consultez Enrichissement des bibliothèques de types sémantiques.
Imaginons que vous devez travailler sur un jeu de données contenant différentes informations sur des clients basés aux États-Unis, telles que leurs noms, adresses e-mail, ainsi que l’État dans lequel ils vivent.
Comme vous pouvez le voir dans l'en-tête de la colonne State, les données sont bien reconnues en tant qu’états américains, cependant comme le montre la barre de statistiques, certaines des entrées contiennent des noms invalides.
En une seule action, vous allez corriger ces valeurs invalides, en les remplaçant par la valeur correcte extraite du dictionnaire, ou type sémantique US State, qui contient une liste exhaustive de tous les États des États-Unis.
Procedure
Results
Les valeurs invalides ont été uniformisées en utilisant le dictionnaire des États américains.