Accéder au contenu principal Passer au contenu complémentaire

Formater automatiquement des données en se basant sur des exemples

La fonctionnalité de remplissage par magie offre une solution pratique de formatage de types de données n'ayant pas de fonction dédiée, ou permet de réaliser facilement une suite de transformations à l'aide de la même fonction.

Note InformationsRemarque : Cette fonction n'est pas compatible avec les Jobs Spark, avec les exports HDFS ou S3.

Via un algorithme d'apprentissage automatique, cette fonctionnalité vous permet de définir un modèle se basant sur plusieurs exemples puis, via un algorithme d'apprentissage automatique, d'appliquer la transformation sur une colonne entière.

Pour le moment, le remplissage par magie supporte les types de transformations suivants :

  • substring
  • ajout de constantes (nombres, chiffres, caractères spéciaux),
  • sensibilité à la casse,
  • transformation sémantique pour les pays, les codes postaux et les États des États-Unis, les adresses e-mail, les URL et les dates.

Pour que la fonction puisse fonctionner, vous devez saisir au moins deux exemples de la transformation à appliquer. Vous pouvez ajouter jusqu'à trois autres exemples. Plus vous saisissez d'exemples, plus le modèle sera identifié précisement par la fonction.

Si le programme de transformation généré par la fonction ne s'applique pas à certaines données de la colonne source, elles restent inchangées dans la colonne cible.

Les types de données tels que dates ou phone numbers ont une fonction dédiée pouvant être utilisée pour modifier facilement leur format. Cependant, les types comme full names, social security numbers ou state codes, par exemple, n'ont pas cette fonction. Les scénarios suivants illustrent comment utiliser la fonctionnalité de remplissage par magie afin de formater vos données dans ces cas.

Formater les noms avec le remplissage par magie

Vous pouvez utilisez la fonctionnalité de remplissage par magie pour formater des noms, selon un modèle défini par des exemples.

Prenez l'exemple d'un jeu de données avec une colonne contenant les noms complets de vos clients.

Jeu de données contenant les noms complets des clients.

Vous souhaitez formater ces noms et conserver uniquement la première lettre du prénom, suivie d'un point puis du nom de famille en majuscules. Par exemple, George Abitbol deviendrait G. ABITBOL. La manière la plus simple d'accomplir ce formatage est d'utiliser le remplissage par magie afin de configurer des exemples du fonctionnement de la transformation et de l'appliquer au reste de la colonne.

Procedure

  1. Cliquez sur l'en-tête de la colonne fullname pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Remplir par magie et cliquez sur le résultat pour afficher les options de la fonctionnalité associée.
  3. Décochez la case Create new column.
    Ainsi, les valeurs seront corrigées directement dans la colonne existante.
  4. Dans le champ Input 1, saisissez l'une des valeurs de la colonne fullname à transformer, Dimitri Tudor par exemple.
  5. Dans le champ Output 1, saisissez la même valeur, mais avec le format suivant : D. TUDOR.
    Pour que la fonction puisse fonctionner, vous devez saisir au moins deux exemples complets de la transformation à appliquer. Vous pouvez ajouter jusqu'à trois autres exemples. Les exemples peuvent être extraits de votre jeu de données ou inventés. Plus vous saisissez d'exemples, plus le modèle sera identifié précisement par la fonction.
  6. Saisissez plus d'exemples avant-après dans les champs restants :
    • Mina Luze en tant que Input 2 et M. LUZE en tant que Output 2.
    • Henry Bank en tant que Input 3 et H. BANK en tant que Output 3.
    • Ben Schneider en tant que Input 4 et B. SCHNEIDER en tant que Output 4.
    • Jonathan Oliver en tant que Input 5 et J. OLIVER en tant que Output 5.
  7. Cliquez sur Submit.

Results

Grâce aux exemples du début, la fonction a compris le modèle et a automatiquement créé la transformation correspondante. Les noms dans le jeu de données ont été remplacés par leur équivalent au format attendu.
Jeu de données contenant les noms complets des clients avec transformation.

Formater des numéros de Sécurité Sociale à l'aide du remplissage par magie

Vous pouvez utilisez la fonctionnalité de remplissage par magie pour formater des numéros de Sécurité Sociale, selon un modèle défini par des exemples.

Dans cette exemple, votre jeu de données contient des informations sur vos clients comme des noms, des adresses e-mail, et surtout, des numéros de Sécurité Sociale. Cependant, ces numéros de Sécurité Sociale ont été saisis au mauvais format, sans tirets. Par exemple, un numéro comme 334-20-6259, a été saisi 334206259 dans ce jeu de données. En raison du mauvais format, la plupart des données sont qualifiées par l'application de numéros de routage, et sont considérées comme invalides.

Jeu de données contenant des informations client·es.

Pour résoudre cette erreur, la fonctionnalité de remplissage par magie va permettre d'appliquer le format de numéros de Sécurité Sociale correct à vos données, en suivant un modèle basé sur quelques exemples que vous avez entré.

Procedure

  1. Cliquez sur l'en-tête de la colonne ssn pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Remplir par magie et cliquez sur le résultat pour afficher les options de la fonctionnalité associée.
  3. Dans le champ Input, saisissez une des valeurs de la colonne ssn que vous souhaitez transformer, 472989590 par exemple.
  4. Dans le champ Output, saisissez la même valeur, dans le bon format cette fois-ci : 472-98-9590.
    Pour que la fonction puisse fonctionner, vous devez saisir au moins deux exemples complets de la transformation à appliquer. Vous pouvez ajouter jusqu'à trois autres exemples. Les exemples peuvent être extraits de votre jeu de données ou inventés. Plus vous saisissez d'exemples, plus le modèle sera identifié précisement par la fonction.
  5. Saisissez plus d'exemples avant-après dans les champs restant :
    • 428990989 comme Input 2 et 428-99-0989 comme Output 2
    • 281066499 comme Input 3 et 281-06-6499 comme Output 3
    • 244356471 comme Input 4 et 244-35-6471 comme Output 4
    • 233262165 comme Input 5 et 233-26-2165 comme Output 5
  6. Cliquez sur Submit.

Results

Une nouvelle colonne est créée, le transformation de vos exemples y est appliquée au reste des numéros. Les numéros de Sécurité Sociale sont désormais correctement formatés et sont détectés comme tels, comme le montre le type sémantique de l'en-tête de cette nouvelle colonne. Vous pouvez à présent supprimer l'autre colonne aux données invalides.
Jeu de données contenant des informations client·es avec la nouvelle colonne.

Tirer parti des analyses sémantiques pour transformer des codes États en États à l'aide du remplissage par magie

En se basant sur l'exemple que vous allez saisir, le remplissage par magie peut également reconnaître et formater les données correspondant à certains types sémantiques : pays, adresses e-mail, URL, dates, codes postaux et États des États-Unis.

Par exemple, un jeu de données comportant des données clients, telles que leur nom, adresse e-mail, ou encore l'État dans lequel ils vivent. Ce scénario présente comment utiliser le remplissage par magie pour convertir les codes États à deux lettres en leur nom de pays complet correspondant, pour avoir les données dans un format plus lisible.

Jeu de données contenant des informations client·es.

Procedure

  1. Cliquez sur l'en-tête de la colonne state pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Magic fill (remplir par magie) et cliquez sur le résultat pour afficher les options de la fonctionnalité associée.
  3. Dans le champ Input 1, saisissez l'une des valeurs de la colonne state que vous souhaitez transformer, NY par exemple.
  4. Dans le champ Output 1, saisissez le nom complet de l'État correspondant : New York.
    Pour que la fonction puisse fonctionner, vous devez saisir au moins deux exemples complets de la transformation à appliquer. Vous pouvez ajouter jusqu'à trois autres exemples. Les exemples peuvent provenir de votre jeu de données, ou vous pouvez utiliser d'autres valeurs de codes États valides des États-Unis provenant d'ailleurs. Plus vous saisissez d'exemples, plus la transformation sera identifiée précisement par la fonction.
  5. Saisissez plus d'exemples avant-après dans les champs restant :
    • AZ comme Input 2 et Arizona comme Output 2,
    • TX comme Input 3 et Texas comme Output 3,
    • IN comme Input 4 et Indiana comme Output 4,
    • MI comme Input 5 et Michigan comme Output 5.

    En se basant sur ces exemples, la fonction comprendra que toutes les entrées (Input) saisies sont des codes États à deux lettres et que les sorties (Output) sont des noms d'États complets. Elle appliquera la transformation correspondante au reste de la colonne.

  6. Cliquez sur Submit.

Results

Une nouvelle colonne est créée, le formatage défini par vos exemples a été appliqué au reste des codes États. Vous pouvez voir dans l'en-tête de la colonne que les nouvelles valeurs correspondent au type sémantique US State, ce qui leur assure d'avoir le bon format. Vous pouvez à présent supprimer la colonne state.
Jeu de données contenant des informations client·es avec une nouvelle colonne.

Tirer parti des fonctionnalités sémantiques afin de convertir des dates en jours de la semaine à l'aide du remplissage par magie

En se basant sur l'exemple que vous allez saisir, le remplissage par magie peut également reconnaître et formater les données correspondant à certains types sémantiques : pays, adresses e-mail, URL, codes postaux et États des États-Unis, dates.

Prenez l'exemple d'une petite entreprise de commerce de détail ayant plusieurs magasins dans une ville. Le jeu de données suivant indique comment le nombre total de ventes est enregistré avec la date correspondante chaque jour. Le format utilisé pour saisir des dates est dd/MM/yyyy, mais vous pouvez également afficher le jour de la semaine correspondant, afin de faire des analyses statistiques et déterminer les jours les plus rentables. Ce scénario vous présente comment utiliser la fonctionnalité de remplissage par magie afin d'extraire cette information.

Jeu de données contenant le nombre de ventes enregistrées.

Procedure

  1. Cliquez sur l'en-tête de la colonne date pour sélectionner son contenu.
  2. Dans le panneau des fonctions, saisissez Magic fill (remplir par magie) et cliquez sur le résultat pour afficher les options de la fonctionnalité associée.
  3. Dans le champ Input 1, saisissez l'une des valeurs de la colonne date que vous souhaitez transformer, 17/01/2018 par exemple.
  4. Dans le champ Output 1, saisissez le jour de la semaine que vous savez correspondre : Wednesday (mercredi).
    Pour que la fonction puisse fonctionner, vous devez saisir au moins deux exemples complets de la transformation à appliquer. Vous pouvez ajouter jusqu'à trois autres exemples. Les exemples peuvent provenir de votre jeu de données, ou vous pouvez utiliser d'autres paires de dates/jours valides. Plus vous saisissez d'exemples, plus la transformation sera identifiée précisement par la fonction.
  5. Saisissez plus d'exemples avant-après dans les champs restant :
    • 02/11/2018 comme Input 2 et Friday comme Output 2
    • 06/12/2018 comme Input 3 et Thursday comme Output 3
    • 22/09/2019 comme Input 4 et Sunday comme Output 4
    • 13/07/2019 comme Input 5 et Saturday comme Output 5

    En se basant sur ces exemples, la fonction comprendra que toutes les entrées (Input) saisies sont des dates au format dd/MM/yyyy, que les sorties indiquent les jours de la semaine correspondants et va appliquer la transformation correspondante au reste de la colonne.

  6. Cliquez sur Submit.

Results

Une nouvelle colonne est créée, affichant le jour de la semaine pour chaque date de votre colonne initiale. Vous pouvez voir que la plupart des ventes semble se faire les mercredi et samedi, c'est une information nouvelle. Partant de là, vous pouvez facilement filtrer sur n'importe quel jour de la semaine ou essayer des fonctions d'agrégation via le panneau des diagrammes, pour obtenir la moyenne des ventes de chaque jour de la semaine.
Jeu de données contenant le nombre de ventes enregistrées avec une nouvelle colonne.

Convertir des noms d'organisations en leur forme abrégée à l'aide du remplissage par magie

La fonction de remplissage par magie peut être utilisée pour transformer des noms, unités ou expressions en leur forme abrégée.

Dans cet exemple, le jeu de données à améliorer contient des données sur les personnes travaillant pour des organisations nationales ou internationales. Cependant, les noms complets des organisations sont souvent trop longs et moins connus que les acronymes correspondants. Afin de rendre le jeu de données plus simple à lire, vous allez utiliser la fonction de remplissage par magie pour convertir les noms complets en leurs acronymes.
Jeu de données contenant des données relatives aux personnes travaillant pour des organisations nationales ou internationales renommées.

Procedure

  1. Cliquez sur l'en-tête de la colonne organization pour la sélectionner.
  2. Dans le panneau des fonctions, saisissez Magic fill (remplir par magie) et cliquez sur le résultat pour afficher les options de la fonctionnalité associée.
  3. Dans le champ Input 1, saisissez l'une des valeurs de la colonne organization à transformer, World Wildlife Fund par exemple.
  4. Dans le champ Output 1, saisissez l'acronyme correspondant : WWF.
    Pour que la fonction puisse fonctionner, vous devez saisir au moins deux exemples complets de la transformation à appliquer. Vous pouvez ajouter jusqu'à trois autres exemples. Les exemples peuvent être extraits de votre jeu de données ou inventés. Plus vous saisissez d'exemples, plus le modèle sera identifié précisement par la fonction.
  5. Saisissez plus d'exemples avant-après dans les champs restant :
    • Federal Bureau of Investigation en tant que Input 2 et FBI en tant que Output 2
    • International Court of Justice en tant que Input 3 et ICJ en tant que Output 3
    • World Trade Organization en tant que Input 4 et WTO en tant que Output 4
    • European Union en tant que Input 5 et EU en tant que Output 5

    Selon ces exemples, la fonction va comprendre qu'il faut conserver uniquement la première lettre de chaque mot en majuscule pour transformer les noms complets en leur acronyme correspondant.

  6. Cliquez sur Submit.

Results

Une colonne est créée, où la transformation définie par vos exemples a été appliquée aux autres noms d'organisations. Vous pouvez reconnaître plus facilement les organisations de votre jeu de données.
Jeu de données contenant des données relatives aux personnes travaillant pour des organisations nationales ou internationales renommées, avec leurs acronymes.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.