Transformation des données

Vous pouvez créer des transformations de données réutilisables et basées sur des règles dans le cadre de votre pipeline de données. Vous pouvez effectuer des transformations dans le cadre de votre intégration de données, ou créer des tâches de données de transformation réutilisables. Vous pouvez effectuer des transformations au niveau des lignes et créer des jeux de données matérialisés comme des tables, ou créés comme des vues effectuant des transformations à la volée.

Les transformations avancées sont disponibles avec un abonnement Qlik Talend Cloud Premium ou Qlik Talend Cloud Enterprise.

Vous pouvez effectuer des transformations de jeux de données explicites ou créer des règles globales qui transforment plusieurs jeux de données. Vous pouvez également filtrer un jeu de données pour créer un sous-ensemble de lignes.
Vous pouvez ajouter des transformations SQL. Une transformation SQL vous permet de saisir une requête SQL SELECT dans un pipeline pour définir des transformations simples ou complexes.
Vous pouvez ajouter des flux de transformation visuels avec des sources, des processeurs et des cibles pour définir des transformations simples ou complexes.

Les tâches de données fonctionnent dans le contexte du propriétaire du projet auquel elles appartiennent. Pour plus d'informations sur les rôles et les autorisations nécessaires, voir Rôles et autorisations au sein d'un espace de données.

Une tâche de données de transformation contient trois vues :

Transformer

Cette vue affiche toutes les transformations pour visualiser le flux du jeu de données source vers le jeu de données cible.
Jeux de données

Cette vue affiche toutes les transformations de base sur les jeux de données telles que le filtrage de données ou l'ajout de colonnes, ainsi que les règles permettant d'effectuer des transformations globales.
Modèle

Cette vue vous permet de créer un modèle de données avec les relations entre les jeux de données inclus.

Outre le stockage de tables dans l'entrepôt de données, vous pouvez également stocker des tables sous forme de tables Iceberg gérées par la plateforme de données. Cette option n'est actuellement disponible qu'avec les projets Snowflake. Cela est possible en sélectionnant Tables Iceberg gérées par Snowflake sous Type de table dans les paramètres de tâche.

Création d'une tâche de données de transformation

Le plus facile, pour créer une tâche de données de transformation, consiste à cliquer sur ... sur une tâche de données de stockage, puis à sélectionner Transformer les données.

Vous pouvez également cliquer sur Créer dans un projet et sélectionner Transformer les données. Dans ce cas, vous devez définir la tâche de données source à utiliser.

Définissez vos données sources dans Transform (Transformer).

Vous pouvez sélectionner l'une des options suivantes :
- Effectuer des transformations de jeux de données
  
  Sélectionnez des jeux de données sources, puis cliquez sur Ajouter à la cible pour les ajouter à Cible.
  
  Vous pouvez ensuite effectuer des transformations de base sur les jeux de données, comme par exemple filtrer des données ou ajouter des colonnes, dans Datasets (Jeux de données).
  
  Pour plus d'informations, consultez Gestion des jeux de données.
- Ajouter une transformation SQL
  
  Sélectionnez des jeux de données sources et cliquez sur Add SQL transformation (Ajouter une transformation SQL).
  
  Une transformation SQL vous permet de saisir une requête SQL SELECT dans un pipeline pour définir des transformations simples ou complexes.
  
  Pour plus d'informations, consultez Ajout de transformations SQL.
- Ajouter un flux de transformation
  
  Sélectionnez des jeux de données sources et cliquez sur Add transformation flow (Ajouter un flux de transformation).
  
  Le concepteur de flux vous permet de créer un flux de transformation avec des sources, des processeurs et des cibles pour définir des transformations simples ou complexes.
  
  Pour plus d'informations, consultez Ajout de flux de transformation.
Vous pouvez également ajouter davantage de jeux de données provenant d'autres tâches de données de stockage en cliquant sur Select source data (Sélectionner des données sources).

Vous pouvez ajouter des jeux de données provenant du projet en cours ou d'un autre projet. Pour ajouter des jeux de données provenant d'un autre projet :
- Vous devez avoir au moins le rôle Peut consommer dans l'espace du projet consommé.
- Les deux projets doivent être sur la même plateforme de données.
Pour plus d'informations sur les pipelines interprojets, consultez Élaboration de pipelines interprojets.
Lorsque vous avez ajouté les transformations souhaitées, validez les jeux de données en cliquant sur Valider les jeux de données. Si la validation détecte des erreurs, corrigez-les avant de poursuivre.

Pour plus d'informations, consultez Validation et ajustement des jeux de données.
Créer un modèle de données

Cliquez sur Modèle pour définir les relations entre les jeux de données inclus.

Pour plus d'informations, consultez Création d'un modèle de données.
Cliquez sur Préparer pour préparer la tâche de données et tous les artefacts nécessaires. Cette opération peut prendre un certain temps.

Vous pouvez suivre la progression sous Progression de la préparation dans la partie inférieure de l'écran.
Lorsque l'état affiche Préparé, vous pouvez exécuter la tâche de données.

Cliquez sur ..., puis sur Exécuter.

La tâche de données commence maintenant la création des jeux de données pour transformer les données.

Il n'est pas possible de modifier les jeux de données inclus lorsque vous avez commencé la génération des jeux de données.

Utilisation de la vue Transformer

Dans Transformer, toutes les transformations sont affichées pour visualiser le flux du jeu de données source vers le jeu de données cible.

Sélectionnez une transformation pour voir quels jeux de données sources sont utilisés et quels jeux de données cibles sont créés.
Sélectionnez une source pour voir toutes les transformations dans lesquelles elle est utilisée, ainsi que toutes les cibles obtenues.
Sélectionnez une cible pour voir quels sont les jeux de données sources et quelle transformation a créé ce jeu de données cible.

Vue Transformer dans Transformation — Vue Transformer dans une transformation

Vous pouvez modifier les paramètres suivants en cliquant sur Options d'affichage :

Filtrer par type de transformation

Affichez uniquement les transformations d'un ou de deux types de transformation.
Filtrer

Affichez toutes les transformations ou seulement la transformation sélectionnée. Vous devez sélectionner une transformation pour pouvoir activer cette option.
Densité

Décidez si vous souhaitez afficher les transformations avec une disposition compacte ou une disposition large utilisant plus d'espace.

Utilisation de la vue Jeux de données

Dans Jeux de données, vous pouvez afficher et modifier tous les jeux de données cibles de la tâche de transformation.

Consultez également Gestion des jeux de données pour plus d'informations.

Ajout d'un jeu de données cible

Vous pouvez ajouter davantage de jeux de données cibles à la tâche de transformation.

Cliquez sur .
Fournissez le Nom et, éventuellement, la Description du jeu de données.
Sélectionnez un jeu de données source parmi les jeux de données disponibles dans la tâche dans Jeu de données source.

Note ConseilVous pouvez sélectionner Aucun jeu de données source pour créer un jeu de données vide qui ne soit connecté à aucune source. Vous pouvez ajouter des colonnes au jeu de données lors de la conception, mais vous devez vous connecter à un jeu de données source avant de pouvoir préparer la tâche.

Le jeu de données cible est maintenant ajouté.

Modification du jeu de données source

Vous pouvez modifier le jeu de données source d'un jeu de données cible.

Cliquez sur après Source : [nom du jeu de données source].
Sélectionnez un autre jeu de données source parmi les jeux de données disponibles dans la tâche dans Jeu de données source.

Note ConseilVous pouvez sélectionner Aucun jeu de données source pour déconnecter le jeu de données cible de la source. Vous pouvez modifier le jeu de données lors de la conception, mais vous devez vous connecter à un jeu de données source avant de pouvoir préparer la tâche.

Ajout de nouvelles colonnes

Vous pouvez ajouter de nouvelles colonnes au jeu de données cible.

Ajout d'une nouvelle colonne à partir de rien

Cliquez sur + Ajouter).

Donnez un nom à la colonne et fournissez une expression pour définir les données de la colonne.

Pour plus d'informations, consultez Ajout de colonnes à un jeu de données.
Ajout d'une colonne à partir d'une source

Cliquez sur près de Ajouter et sélectionnez Ajouter une colonne de la source.

Sélectionnez une colonne du jeu de données source.

Réorganisation des colonnes

Vous pouvez modifier la position ordinale d'une colonne.

Sélectionnez une colonne.
Cliquez sur , puis sur Réorganiser.
Utilisez les flèches pour déplacer la colonne vers le haut ou vers le bas.
Fermez Modifier l'ordinal lorsque vous êtes prêt.

Création de règles de transformation

Vous pouvez créer des règles de transformation réutilisables pour appliquer une transformation globale à des jeux de données.

Pour plus d'informations sur la création de règles, consultez Création de règles pour transformer des jeux de données.

Vous pouvez voir les effets des règles en sélectionnant Afficher les effets des règles. Vous ne pouvez pas modifier les jeux de données lorsque l'option Afficher les effets des règles est activée.

Filtrage d'un jeu de données

Vous pouvez filtrer des données pour créer un sous-ensemble de lignes, si nécessaire.

Cliquez sur , puis sur Filtrer.

Pour plus d'informations sur le filtrage, consultez Filtrage d'un jeu de données.

Planification d'une tâche de transformation

Vous pouvez planifier la mise à jour périodique d'une tâche de transformation. Vous pouvez définir une planification à intervalle défini ou définir la tâche de sorte qu'elle soit exécutée à la fin de l'exécution de tâches de données d'entrée.

Cliquez sur ... sur une tâche de données et sélectionnez Planification pour créer une planification. Le paramètre de planification par défaut est hérité des paramètres du projet. Pour plus d'informations sur les paramètres par défaut, voir Valeurs par défaut de transformation.

Pour activer la planification, vous devez toujours définir Planification sur Activée.

Si tous les jeux de données de la tâche sont de type non matérialisé, il n'y a rien à exécuter, car la transformation s'effectue à la volée avec les vues. Vous pouvez tout de même créer une planification pour qu'une tâche de transformation de type non matérialisé s'exécute lorsque la condition de la planification est remplie. La tâche se terminera immédiatement, ce qui peut déclencher une tâche en aval, par exemple, un mini-data warehouse. Cela vous permet de créer une planification de pipeline basée sur un événement qui inclut des transformations non matérialisées sans interrompre le flux de pipeline.

Planifications à intervalles définis

Vous pouvez utiliser une planification à intervalle défini pour exécuter la tâche, quel que soit le moment de la mise à jour des différentes sources d'entrée.

Sélectionnez À une heure spécifique dans Exécuter la tâche de données.

Vous pouvez définir une planification horaire, quotidienne, hebdomadaire ou mensuelle.

Planifications basées sur des événements

Vous pouvez utiliser une planification basée sur un événement pour exécuter la tâche à la fin de l'exécution de tâches de données d'entrée.

Sélectionnez Lors d'un événement spécifique dans Exécuter la tâche de données.

Vous pouvez décider d'exécuter la tâche lorsque n'importe laquelle des tâches d'entrée a été correctement exécutée ou lorsque n'importe quelle tâche d'entrée d'une sélection de tâches d'entrée a été correctement exécutée.

La tâche ne sera pas exécutée si une tâche d'entrée ou une tâche en aval est en cours d'exécution lors du déclenchement de la planification. La tâche sera ignorée jusqu'à l'exécution planifiée suivante.

Surveillance d'une tâche de transformation

Vous pouvez surveiller l'état et la progression d'une tâche de transformation en cliquant sur Surveiller.

Pour plus d'informations, consultez Surveillance d'une tâche de données individuelle.

Chargement de données

Vous pouvez effectuer un chargement manuel des tables si les données sont matérialisées sous forme de tables physiques. Cela s'avère utile en cas de problèmes avec une ou plusieurs tables.

Si les jeux de données ne sont pas matérialisés, vous devez charger les jeux de données sources dans la tâche de données en amont pour actualiser les données.

Ouvrez la tâche de données et sélectionnez l'onglet Surveiller.
Sélectionnez les tables à charger.
Cliquez sur Charger des tables.

Le chargement se produira lors de la prochaine exécution de la tâche. Le processus de chargement se comporte différemment suivant le paramètre d'historique et le type de transformation de chaque jeu de données. Cela signifie que le processus de chargement peut varier d'un jeu de données à l'autre dans une tâche de données.

Les transformations de jeux de données sont actualisées par troncation et chargement.
Les transformations SQL et les flux de transformation peuvent être actualisés par troncation et chargement ou par comparaison et application. Il est recommandé d'appliquer la méthode par comparaison et application.

Chargement d'un jeu de données en fonction d'une transformation SQL ou d'un flux de transformation

Vous pouvez annuler le chargement des tables en attente de chargement en cliquant sur Annuler le chargement. Cela n'affectera pas les tables déjà chargées, et les chargements en cours d'exécution seront effectués jusqu'au bout.

Les tâches en aval seront actualisées de sorte à appliquer les modifications et à éviter un antidatage.

Effets en aval d'une actualisation de transformation — Impact en aval après l'actualisation d'une tâche de données Transformation

L'impact en aval dépend du type d'opération d'actualisation exécuté et du type du jeu de données en aval immédiat. Un traitement standard signifie que le jeu de données réagira et traitera les données via la méthode configurée pour le jeu de données en question.

Actualisation d'un jeu de données par troncation et chargement

Si le jeu de données suivant utilise des transformations de jeux de données, il sera actualisé lors de l'exécution suivante par troncation et chargement.
Si le jeu de données suivant est une transformation SQL ou un flux de transformation, il sera actualisé par comparaison et application.

Chargement d'un jeu de données sans historique

Dans ce cas, il n'existe pas d'historique à prendre en compte. Pour réduire le traitement sur la cible, le chargement s'effectue comme suit :

Troncage des tables.
Chargement des données en cours provenant de la tâche de données en amont.

Les tâches en aval seront actualisées de sorte à appliquer les modifications.

Chargement d'un jeu de données avec l'historique activé

Le chargement s'effectue comme suit :

Troncage des tables en cours, précédentes et de modifications.
Chargement des données auprès de la tâche de données en amont, y compris les tables précédentes.

Chargement d'un jeu de données en fonction d'une transformation SQL ou d'un flux de transformation

Tronquer et charger

Note InformationsCette option risque d'entraîner une perte d'historique.
1. Troncage des tables en cours et de modifications.
2. Exécution de la requête et son chargement dans les tables en cours.
Charger et comparer
1. Exécution de la requête et sa comparaison aux tables en cours.
2. Ajout des modifications.

Lorsqu'un jeu de données basé sur une transformation SQL ou un flux de transformation est actualisé en raison de l'actualisation d'un tâche en amont, il est toujours actualisé par comparaison et application. Pour le tronquer et l'actualiser, vous devez effectuer une actualisation spécifique pour ces tables. Dans ce cas, vous devez réfléchir aux conséquences sur les tables en aval également.

Paramètres de transformation

Vous pouvez définir des propriétés pour la tâche de données de transformation.

Cliquez sur Paramètres.

Si la tâche a déjà été exécutée, la modification d'un paramètre différent des paramètres Délai d'exécution exige la recréation des jeux de données.

Paramètres généraux

Base de données

Base de données à utiliser dans la source de données.
Schéma de tâche

Vous pouvez modifier le nom du schéma de tâche de données. Le nom par défaut correspond au nom de la tâche.
Schéma interne

Vous pouvez modifier le nom du schéma de stockage interne. Le nom par défaut correspond au nom de la tâche auquel « _internal » est ajouté.
Casse par défaut du nom du schéma

Vous pouvez définir la mise en majuscules par défaut de tous les noms de schéma. Si votre base de données est configurée de sorte à forcer la mise en majuscules, cette option n'aura pas d'effet.
Préfixe de l'ensemble des tables et des vues
Vous pouvez définir un préfixe pour toutes les tables et vues créées avec cette tâche.

Note InformationsLorsque vous souhaitez utiliser un schéma de base de données dans plusieurs tâches de données, vous devez utiliser un préfixe unique.
Matérialisé

Vous pouvez décider de créer uniquement des vues qui effectuent des transformations à la volée (Non matérialisé) ou de créer des tables et des vues (Matérialisé).
Data store historique (Type 2)

Vous pouvez conserver les données historiques de changement pour faciliter la recréation des données à l'identique à un instant précis. Les vues Historique et Historique en direct vous permettent de consulter les données historiques.

Paramètres d'exécution

Exécution parallèle

Vous pouvez définir le nombre maximal de connexions pour les chargements complets sur un nombre compris entre 1 et 5.
Entrepôt

Nom de l'entrepôt de données cloud.

Paramètres du catalogue

Publier dans le catalogue

Sélectionnez cette option pour publier cette version des données dans Catalogue sous forme d'ensemble de données. Le contenu de Catalogue sera mis à jour la prochaine fois que vous préparerez cette tâche.

Pour plus d'informations sur Catalogue, consultez Comprendre vos données grâce à des outils de catalogage.

Paramètres du type de table

Ces paramètres ne sont disponibles que dans les projets dont la plateforme de données est Snowflake.

Type de table

Vous pouvez sélectionner le type de table à utiliser :
- Tables Snowflake
- Tables Iceberg gérées par Snowflake
  
  Vous devez définir le nom par défaut du volume externe dans Volume externe Snowflake.
Dossier de stockage Cloud à utiliser

Sélectionnez le dossier à utiliser lors du dépôt temporaire de données dans la zone intermédiaire.
- Dossier par défaut
  
  Cela crée un dossier portant le nom par défaut suivant : <nom de projet>/<nom de tâche de données>.
- Dossier racine
  
  Conservez les données dans le dossier racine du stockage.
- Dossier
  
  Indiquez le nom de dossier à utiliser.
Synchroniser avec le catalogue ouvert de Snowflake

Activez cette option pour permettre au catalogue ouvert de Snowflake de gérer les fichiers dans le stockage de fichiers Cloud.

Limitations

Il n'est pas possible de modifier des types de données dans une tâche de données de transformation lorsque l'option Non matérialisé est sélectionnée.
La traçabilité au niveau du champ n'est pas disponible pour les jeux de données créés dans des flux de transformation ou des transformations SQL.

Utilisation de Qlik Cloud Data Integration pour intégrer et transformer des données

En savoir plus

Utilisation de Qlik Cloud Data Integration pour intégrer et transformer des données

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici