Standardiser automatiquement des valeurs dans une colonne
Vous pouvez utiliser la fonction Standardize value (fuzzy matching) (Standardiser la valeur) pour trouver la valeur correcte la plus proche pour les données invalides contenues dans une colonne.
La fonction compare les données invalides contenues dans une colonne avec les valeurs définies pour le type sémantique actuel de la colonne. Elle va ensuite récupérer la valeur valide, si le palier de correspondance sélectionné est atteint. Cette fonction n'est disponible que si le type sémantique de la colonne est basé sur un dictionnaire de valeurs présent par défaut dans Talend Data Preparation, ou que vous avez créé avec Talend Dictionary Service. Pour plus d'informations concernant la création de types sémantiques personnalisés ou la modification de types sémantiques existants, consultez Enrichissement des bibliothèques de types sémantiques.
Imaginons que vous devez travailler sur un jeu de données contenant différentes informations sur des clients basés aux États-Unis, telles que leurs noms, adresses e-mail, ainsi que l’État dans lequel ils vivent.
Comme vous pouvez le voir dans l'en-tête de la colonne State, les données sont bien reconnues en tant qu’états américains, cependant comme le montre la barre de statistiques, certaines des entrées contiennent des noms invalides.
En une seule action, vous allez corriger ces valeurs invalides, en les remplaçant par la valeur correcte extraite du dictionnaire, ou type sémantique US State, qui contient une liste exhaustive de tous les États des États-Unis.
Procédure
Résultats
Les valeurs invalides ont été uniformisées en utilisant le dictionnaire des États américains.