Accéder au contenu principal Passer au contenu complémentaire

Standardiser automatiquement des valeurs dans une colonne

Vous pouvez utiliser la fonction Standardize value (fuzzy matching) (Standardiser la valeur) pour trouver la valeur correcte la plus proche pour les données invalides contenues dans une colonne.

La fonction compare les données invalides contenues dans une colonne avec les valeurs définies pour le type sémantique actuel de la colonne. Elle va ensuite récupérer la valeur valide, si le palier de correspondance sélectionné est atteint. Cette fonction n'est disponible que si le type sémantique de la colonne est basé sur un dictionnaire de valeurs présent par défaut dans Talend Data Preparation, ou que vous avez créé avec Talend Dictionary Service. Pour plus d'informations concernant la création de types sémantiques personnalisés ou la modification de types sémantiques existants, consultez Enrichissement des bibliothèques de types sémantiques.

Imaginons que vous devez travailler sur un jeu de données contenant différentes informations sur des clients basés aux États-Unis, telles que leurs noms, adresses e-mail, ainsi que l’État dans lequel ils vivent.

Comme vous pouvez le voir dans l'en-tête de la colonne State, les données sont bien reconnues en tant qu’états américains, cependant comme le montre la barre de statistiques, certaines des entrées contiennent des noms invalides.

En une seule action, vous allez corriger ces valeurs invalides, en les remplaçant par la valeur correcte extraite du dictionnaire, ou type sémantique US State, qui contient une liste exhaustive de tous les États des États-Unis.

Note InformationsRemarque : La fonction Standardize value (fuzzy matching) ne supporte pas les caractères asiatiques.

Procédure

  1. Cliquez sur l'en-tête de la colonne State pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Standardize values et cliquez sur le résultat pour ouvrir les options de la fonction associée.
  3. Dans la liste déroulante Match threshold (Seuil pour le rapprochement), sélectionnez le pourcentage de correspondance qui doit être atteint entre la valeur invalide et la valeur valide pour que la correction s'effectue.

    Les trois valeurs de pourcentage suivantes sont disponibles :

    • High (Haut) : Seules les valeurs avec au moins 90 % de correspondance avec la valeur de référence sont remplacées.
    • Default (Par défaut) : Seules les valeurs avec au moins 80 % de correspondance avec la valeur de référence sont remplacées.
    • None (Aucun) : Remplace les valeurs invalides par la valeur valide la plus proche.

    C'est l'algorithme de Levenshtein qui est utilisé pour gérer la correspondance entre les données. Dans le cas d'une chaîne composée, le processus de rapprochement se divise en quatre étapes :

    1. Une recherche est effectuée sur la chaîne entière et sur chaque unité lexicale.
    2. Les valeurs de dictionnaire qui ont moins de trois caractères de différence avec la chaîne complète ou avec l'une des chaînes lexicales sont récupérés.
    3. Une distance sur les paires possibles est calculée, afin de récupérer les meilleures.
    4. Le seuil de rapprochement choisi par l'utilisateur ou l'utilisatrice filtre les résultats, en fonction de la distance.

    Exemple

    • Clermont Talend correspond à Clermont grâce à la première chaîne lexicale.
    • Clermont-Ferra correspond à Clermont-Ferrand car il y a moins de trois caractères de différence avec la chaîne complète.
    • Clermon-Ferant correspond à Clermont car il y a plus de trois caractères de différence avec la chaîne complète, mais un seul caractère de différence avec la chaîne lexicale Clermont.
  4. Passez votre souris sur le bouton Submit (Soumettre) pour avoir un aperçu du résultat de la fonction, et cliquez pour l'appliquer.

Résultats

Les valeurs invalides ont été uniformisées en utilisant le dictionnaire des États américains.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.