Accéder au contenu principal Passer au contenu complémentaire

Versionnement des préparations

Lorsque vous travaillez sur vos données, vous pouvez capturer l'état de votre préparation en créant une version.

Vous pouvez créer une version à tout moment, même lorsqu'aucune étape n'a encore été appliquée. Cela vous permet de geler une préparation à un état précis, avec l'horodatage correspondant, ainsi qu'une description.

Panneau des versions ouvert.

Utilisez le bouton Manage versions (Gérer les versions) pour créer une nouvelle version de votre préparation ou consulter une version précédemment créée, en lecture seule. Chaque version peut être exportée de manière individuelle.

Ajouter des versions à votre préparation est un bon moyen de voir les modifications apportées à la préparation à travers le temps, mais permet surtout de s'assurer que son état est le même que celui de la préparation utilisée dans les Jobs Talend, même si vous travaillez toujours sur la préparation. Les versions peuvent être utilisées dans des Jobs d'intégration de données et des Jobs Big Data.

Les versions de la préparation sont propagées lors du partage ou du déplacement d'une préparation à travers votre structure de fichiers, mais pas lorsque vous la copiez ou l'appliquez à un nouveau jeu de données.

Création de versions de préparation

Dans l'exemple suivant, vous allez effectuer quelques étapes de préparation sur vos données, créer des versions à deux moments différents et apprendre à passer d'une version à l'autre, ainsi que retourner à l'était courant de votre préparation.

Le jeu de données utilisé ici contient des données clients telles que les noms, métiers, numéros de téléphone, adresses e-mail mais nécessite un nettoyage. Les colonnes contenant les noms des clients comprennent des incohérences de format, comme des espaces blancs en début et fin de champs et une casse incohérente. De plus, des numéros de téléphone et des adresses e-mail sont invalides.

Jeu de données contenant des données client·es.

Lors de votre travail sur la préparation, vous allez créer deux versions, reflétant l'état de votre préparation à deux moments différents.

Procedure

  1. Cliquez sur l'en-tête de la colonne First_name et, tout en appuyant sur la touche Ctrl, cliquez sur l'en-tête de la colonne Last_name.

    Le contenu des deux colonnes est sélectionné.

  2. Appliquez les fonctions Remove trailing and leading characters (Supprimer les caractères en début et fin de champ) et Change to title case (Convertir en casse de titre) pour supprimer les espaces blancs et harmoniser la casse.
    Fonctions Remove trailing and leading characters (Supprimer les caractères en début et fin de champ) et Change to title case (Convertir en casse de titre) appliquées.

    La suppression de ces erreurs de format constitue la première grande étape de votre préparation, vous allez donc créer une version pour conserver une trace de ces modifications.

  3. Cliquez sur le bouton Manage versions (Gérer les versions) situé dans la barre en haut.

    Le panneau des fonctions Functions est remplacé par le panneau Versions (Versions). Ce panneau est vide, puisqu'aucune version n'existe encore pour cette préparation.

    Panneau des versions ouvert.

    L'ajout de nouvelles versions via le bouton Manage versions (Gérer les versions) est une fonctionnalité disponible uniquement pour les utilisateurs et utilisatrices de Talend Data Preparation ayant des droits d’administrateur. les autres utilisateurs et utilisatrices·rices peuvent uniquement consulter les versions existantes en mode lecture seule.

  4. Cliquez sur le bouton Add version (Ajouter une version).
  5. Saisissez une description rapide de la version, dans le champ correspondant, Fixing formatting errors in names dans cet exemple, puis cliquez sur Add version.
    Panneau des versions ouvert.

    Cette version est à présent listée dans le panneau Versions (Versions) avec son horodatage et la description précédemment saisie.

    Panneau des versions ouvert avec un numéro de version.
  6. Cliquez sur la version pour y accéder en mode lecture seule.

    Vous pouvez appliquer des filtres et parcourir des données, mais vous ne pouvez appliquer de fonction.

  7. Pour quitter le mode lecture seule et retourner à votre préparation de données, cliquez sur le bouton Switch to current state (Passer à l'état actuel), situé dans la barre en haut.

    Vous êtes à nouveau en mode modification.

  8. Pour nettoyer les entrées invalides restantes des colonnes phone et email, cliquez sur l'icône de menu dans le coin supérieur gauche de la grille et sélectionnez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).
  9. Dans le panneau des fonctions, sélectionnez la fonction Delete these filtered rows (Supprimer ces lignes filtrées).
    Option Delete these filtered rows (Supprimer ces lignes filtrées).

    Toutes les valeurs invalides ont été supprimées de votre jeu de données. Vous allez créer une autre version pour capturer cet état.

  10. Répétez les étapes 3 à 5 pour créer une nouvelle version, mais cette fois, saisissez Removing all invalid values comme description.

    Vos deux versions sont listées dans le panneau Versions (Versions) et sont accessibles en mode lecture seule.

    Panneau des versions ouvert avec deux numéros de version.

Results

Vous avez créé deux versions de votre préparation, afin de capturer l'état de la préparation à deux étapes différentes du processus de nettoyage. Vous pouvez choisir d'exporter l'une de ces versions, l'utiliser dans un Job Talend ou continuer à modifier l'état actuel de votre préparation.

Utilisation d'une version dans un Job Talend

Les versions des préparations peuvent être utilisées dans des Jobs d'intégration de données ou dans des Jobs Big Data dans le Studio Talend.

Dans le Studio Talend, le tDataprepRun vous permet de réutiliser une préparation ou l'une de ses versions et de l'appliquer sur les données avec le même modèle.

Note InformationsNote: Pour pouvoir utiliser le composant tDataprepRun avec Talend Cloud Data Preparation, vous devez posséder la version 7.1 du Studio Talend.

Vous avez toujours la possibilité d'utiliser une préparation dans sa version courante, mais l'utilisation d'une version spécifique peut vous assurer que l'état de la préparation utilisée dans vos Jobs soit toujours le même, même si la préparation est toujours en cours de modification. Cela donne une meilleure cohérence à votre travail.

L'exemple suivant présente un Job appliquant une version d'une préparation existante sur une entrée Salesforce et écrivant en sortie dans une base de données Redshift.

Illustration d'un Job dans le Studio Talend.

Cette préparation a été appliquée sur un jeu de données contenant des informations clients simples telles que les noms, les numéros de téléphone et les adresses e-mail. Quelques étapes ont été appliquées pour supprimer les erreurs de formatage dans les noms et supprimer les valeurs invalides des numéros de téléphone.

Étapes de nettoyage déjà effectuées sur la préparation.

Deux versions ont été créées au cours de la préparation : une après les deux premières étapes et une après la troisième.

Illustrations des versions.

Before you begin

  • Vous devez avoir créé une préparation avec au moins une version dans Talend Cloud Data Preparation. Dans cet exemple, la préparation existante se nomme contacts cleansing.
  • Les données importées de Salesforce doivent avoir le même schéma que celui du jeu de données utilisé pour créer la préparation.

Procedure

  1. Dans le Studio Talend, créez un nouveau Job Standard ou Spark.
  2. Dans l'espace de modélisation graphique du Studio Talend, ajoutez un tSalesforceInput, un tDataprepRun, ainsi qu'un tRedshiftOutput et reliez-les à l'aide de liens Row > Main.
  3. Sélectionnez le composant tSalesforceInput et cliquez sur son onglet Component afin de configurer ses paramètres simples.

    Vérifiez que le schéma du composant tSalesforceInput correspond au schéma attendu par le tDataprepRun.

  4. Sélectionnez le composant tDataprepRun et cliquez sur son onglet Component pour configurer ses paramètres simples.
    Propriétés du composant tDataprepRun dans le Studio Talend.
  5. Saisissez vos informations de connexion à Talend Cloud Data Preparation.
  6. Cliquez sur Choose an existing preparation pour afficher la liste des préparations disponibles dans Talend Cloud Data Preparation.
    Boîte de dialogue Select an existing preparation (Sélectionner une préparation existante) ouverte dans le Studio Talend.
  7. Cochez la case devant contacts cleansing contenant la version de la préparation à appliquer et cliquez sur OK.
  8. Cliquez sur choose a version pour sélectionner une version de la liste des versions disponibles pour votre préparation. Dans cet exemple, sélectionnez la version 1.
    Boîte de dialogue Set the version (Configurer la version) ouverte dans le Studio Talend.

    Par défaut, le Job utilise l'état current state de la préparation sélectionnée. Utiliser current state au lieu d'une version fixe, signifie, dans le contexte d'un travail collaboratif, qu'une personne peut faire des modifications sur la préparation, sans que vous le sachiez. En conséquence, vous ne savez pas précisément comment va se dérouler l'exécution de votre Job. C'est la raison pour laquelle il est recommandé d'utiliser les versions au sein des Jobs.

  9. Cliquez sur Fetch Schema pour récupérer le schéma de contacts cleansing.
  10. Sélectionnez le composant tRedshiftOutput, puis cliquez sur l'onglet Component pour configurer ses paramètres simples.
  11. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

Results

Toutes les étapes de préparation comprises dans la version de la préparation ont été appliquées à vos données, directement dans le flux du Job.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.