Versionnement des préparations
Lorsque vous travaillez sur vos données, vous pouvez capturer l'état de votre préparation en créant une version.
Vous pouvez créer une version à tout moment, même lorsqu'aucune étape n'a encore été appliquée. Cela vous permet de geler une préparation à un état précis, avec l'horodatage correspondant, ainsi qu'une description.
Utilisez le bouton Manage versions (Gérer les versions) pour créer une nouvelle version de votre préparation ou consulter une version précédemment créée, en lecture seule. Chaque version peut être exportée de manière individuelle.
Ajouter des versions à votre préparation est un bon moyen de voir les modifications apportées à la préparation à travers le temps, mais permet surtout de s'assurer que son état est le même que celui de la préparation utilisée dans les Jobs Talend, même si vous travaillez toujours sur la préparation. Les versions peuvent être utilisées dans des Jobs d'intégration de données et des Jobs Big Data.
Les versions de la préparation sont propagées lors du partage ou du déplacement d'une préparation à travers votre structure de fichiers, mais pas lorsque vous la copiez ou l'appliquez à un nouveau jeu de données.
Création de versions de préparation
Dans l'exemple suivant, vous allez effectuer quelques étapes de préparation sur vos données, créer des versions à deux moments différents et apprendre à passer d'une version à l'autre, ainsi que retourner à l'était courant de votre préparation.
Le jeu de données utilisé ici contient des données clients telles que les noms, métiers, numéros de téléphone, adresses e-mail mais nécessite un nettoyage. Les colonnes contenant les noms des clients comprennent des incohérences de format, comme des espaces blancs en début et fin de champs et une casse incohérente. De plus, des numéros de téléphone et des adresses e-mail sont invalides.
Lors de votre travail sur la préparation, vous allez créer deux versions, reflétant l'état de votre préparation à deux moments différents.
Procedure
Results
Vous avez créé deux versions de votre préparation, afin de capturer l'état de la préparation à deux étapes différentes du processus de nettoyage. Vous pouvez choisir d'exporter l'une de ces versions, l'utiliser dans un Job Talend ou continuer à modifier l'état actuel de votre préparation.
Utilisation d'une version dans un Job Talend
Les versions des préparations peuvent être utilisées dans des Jobs d'intégration de données ou dans des Jobs Big Data dans le Studio Talend.
Dans le Studio Talend, le tDataprepRun vous permet de réutiliser une préparation ou l'une de ses versions et de l'appliquer sur les données avec le même modèle.
Vous avez toujours la possibilité d'utiliser une préparation dans sa version courante, mais l'utilisation d'une version spécifique peut vous assurer que l'état de la préparation utilisée dans vos Jobs soit toujours le même, même si la préparation est toujours en cours de modification. Cela donne une meilleure cohérence à votre travail.
L'exemple suivant présente un Job appliquant une version d'une préparation existante sur une entrée Salesforce et écrivant en sortie dans une base de données Redshift.
Cette préparation a été appliquée sur un jeu de données contenant des informations clients simples telles que les noms, les numéros de téléphone et les adresses e-mail. Quelques étapes ont été appliquées pour supprimer les erreurs de formatage dans les noms et supprimer les valeurs invalides des numéros de téléphone.
Deux versions ont été créées au cours de la préparation : une après les deux premières étapes et une après la troisième.
Before you begin
- Vous devez avoir créé une préparation avec au moins une version dans Talend Cloud Data Preparation. Dans cet exemple, la préparation existante se nomme contacts cleansing.
- Les données importées de Salesforce doivent avoir le même schéma que celui du jeu de données utilisé pour créer la préparation.
Procedure
Results
Toutes les étapes de préparation comprises dans la version de la préparation ont été appliquées à vos données, directement dans le flux du Job.