Accéder au contenu principal Passer au contenu complémentaire

Normaliser des enregistrements complexes

Un pipeline avec un jeu de données S3, un processeur Normalize et une destination S3.

Avant de commencer

  • Vous avez précédemment créé une connexion au système stockant vos données source.

    Ici, une connexion Amazon S3.

  • Vous avez précédemment ajouté le jeu de données contenant vos données source.

    Ici, des données hiérarchiques concernant des acteurs et contenant leur ID, nom, pays, etc.

  • Vous avez créé la connexion et le jeu de données associé qui contiendra les données traitées.

    Ici, un fichier stocké sur Amazon S3.

Procédure

  1. Cliquez sur Add pipeline (Ajouter un pipeline) dans la page Pipelines. Votre nouveau pipeline s’ouvre.
  2. Donnez-lui un nom significatif.

    Exemple

    Normalize Actor Records
  3. Cliquez sur ADD SOURCE pour ouvrir le panneau vous permettant de sélectionner vos données source, ici une liste d'acteurs stockée dans HDFS.
  4. Sélectionnez votre jeu de données et cliquez sur Select (Sélectionner) pour l'ajouter au pipeline.
    Renommez-le si nécessaire.
  5. Cliquez sur le bouton + et ajoutez un processeur Normalize au pipeline. Le panneau de Configuration s’affiche.
  6. Donnez un nom significatif au processeur.

    Exemple

    normalize actors structure
  7. Dans les champs Column to normalize, saisissez Actors, puisque la colonne contient les enregistrements hiérarchiques à normaliser.
  8. Activez les options Is list et Discard the trailing empty strings pour rendre plates les données (d'une structure array à une structure record) d'une liste et supprimer les données vides.
  9. Cliquez sur Save (Sauvegarder) pour sauvegarder votre configuration.
  10. Cliquez sur ADD DESTINATION (AJOUTER UNE DESTINATION) dans le pipeline pour ouvrir le panneau vous permettant de sélectionner le jeu de données qui contiendra vos données normalisées.
    Renommez-le si nécessaire.
  11. (Facultatif) Examinez la prévisualisation du processeur Normalize afin de comparer vos données avant et après l'opération de normalisation.
    Aperçu du processeur Normalize selector après aplatissement des enregistrements concernant des acteur·trices.
  12. Dans la barre d'outils en haut de Talend Cloud Pipeline Designer, cliquez sur le bouton Run (Exécuter) pour ouvrir le panneau vous permettant de sélectionner votre profil d'exécution.
  13. Sélectionnez dans la liste votre profil d'exécution (pour plus d'informations, consultez Profils d'exécution), puis cliquez sur Run (Exécuter) pour exécuter votre pipeline.

Résultats

Votre pipeline est en cours d’exécution, les enregistrements sont normalisés et la sortie est envoyée au système cible défini.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.