Création d'un pipeline de données

Vous pouvez créer un pipeline de données pour réaliser toute l'intégration de vos données dans un projet à l'aide de tâches de données. L'intégration déplace les données dans le projet depuis les sources de données qui sont sur site ou dans le cloud et les stocke dans des jeux de données prêts à l'emploi. Vous pouvez également effectuer des transformations et créer des mini-data warehouses pour exploiter vos jeux de données générés et transformés. Le pipeline des données peut être simple et linéaire ou il peut s'agir d'un pipeline complexe qui consomment plusieurs sources de données et proposent des résultats.

Les projets de pipeline de données ne supportent les connecteurs en avant-première des applications SaaS. Pour savoir si votre connecteur est en avant-première, consultez l'aide du connecteur.

Toutes les tâches de données sont créées dans le même espace que celui du projet auquel elles appartiennent.

Vous pouvez également afficher la traçabilité pour suivre les données et les transformations de données en arrière jusqu'à la source d'origine et effectuer une analyse de l'impact qui montre la vue en aval, dirigée vers l'avant, des dépendances des tâches de données, jeux de données ou champs. Pour plus d'informations, consultez Utilisation de la traçabilité et de l'analyse de l'impact dans Intégration de données.

Intégration de données

Cette étape comprend le dépôt temporaire des données dans une zone intermédiaire puis le stockage des jeux de données dans un entrepôt de données cloud. Les tâches de données de dépôt temporaire et de stockage sont créées en une seule étape. Si nécessaire, vous pouvez également effectuer le dépôt temporaire et le stockage dans des tâches séparées.

Enregistrement de données qui existent déjà sur la plateforme de données

Enregistrez les données qui existent déjà sur la plateforme de données pour organiser et transformer les données et créer des mini-data warehouses. Cela vous permet d'utiliser des données intégrées à d'autres outils que Qlik Talend Data Integration, par exemple, Qlik Replicate ou Stitch.

Transformation des données

Créez des transformations réutilisables au niveau de la ligne sur les données intégrées en fonction de règles et de SQL personnalisé. Cela crée une tâche Transformer les données.

Création et gestion de mini-data warehouses

Créez un mini-data warehouse pour utiliser vos jeux de données. Cette opération permet de créer une tâche de données Mini-data warehouse.

plateformes de données cibles

Le projet est associé à une plateforme de données utilisée comme cible pour tous les résultats.

Pour plus d'informations sur les plateformes de données supportées, voir Configuration des connexions aux cibles.

Vidéo d'introduction aux projets

Exemple de création d'un projet

L'exemple suivant illustre l'intégration des données, leur transformation et la création d'un mini-data warehouse. Il présente la création d'un pipeline de données linéaire simple que vous pouvez développer en intégrant d'autres sources de données, la création d'autres transformations et l'ajout de tâches de données générées au mini-data warehouse.

Organigramme des pipelines de données — Exemple d'un pipeline de données linéaire dans un projet

Créez un projet.

Dans Intégration des données > Projets, cliquez sur Créer > Projet.
1. Saisissez un nom et une description pour le projet.
  
  Note InformationsSi vous activez ultérieurement le contrôle des versions pour le projet, vous ne pourrez pas modifier le nom du projet tant qu'il est sous le contrôle des versions.
2. Sélectionnez un espace dans lequel créer le projet. Toutes les tâches de données sont créées dans l'espace du projet auquel elles appartiennent.
3. Sélectionnez Pipeline de données dans Cas d'utilisation.
4. Sélectionnez la plateforme de données à utiliser dans le projet.
5. Sélectionnez une connexion à l'entrepôt de données cloud que vous voulez utiliser dans le projet. Elle permet de déposer temporairement les fichiers de données et de stocker les jeux de données et les vues. Si vous n'avez pas encore préparé de connexion, créez-en une au moyen de Créer.
  - Si vous avez sélectionné Google BigQuery, Databricks ou Microsoft Azure Synapse Analytics comme plateforme de données, vous devez également vous connecter à une zone intermédiaire.
  - Si vous avez sélectionné Snowflake comme plateforme de données, vous pouvez décider de déposer temporairement les données dans un stockage cloud. Consultez Dépôt temporaire de données dans un lakehouse.
  - Si vous avez sélectionné Qlik Cloud comme plateforme de données :
    
    Vous pouvez soit stocker les données dans le stockage géré par Qlik ou dans le compartiment Amazon S3 que vous gérez. Si vous voulez utiliser votre propre compartiment Amazon S3, vous devez sélectionner une connexion à ce compartiment.
    
    Dans les deux cas, vous devez également sélectionner une connexion à une zone intermédiaire Amazon S3. Si vous utilisez le même compartiment que vous avez défini lors de l'étape précédente, assurez-vous d'utiliser un autre dossier dans le compartiment pour la mise en zone intermédiaire.
6. Cliquez sur Créer.
  
  Le projet est créé et vous pouvez créer votre pipeline de données en ajoutant des tâches de données.
Intégrer les données

Dans le projet, cliquez sur Créer, puis sur Intégrer les données.

Pour plus d'informations, consultez Intégration de données.

Cela créera une tâche de données de dépôt temporaire et une tâche de données de stockage. Pour commencer la réplication des données, vous devez :
- Préparer et exécuter la tâche de données de dépôt temporaire.
  
  Pour plus d'informations, consultez Dépôt temporaire de données à partir de sources de données.
- Préparer et exécuter la tâche de données de stockage.
  
  Pour plus d'informations, consultez Stockage de jeux de données.
Transformer les données

Lorsque la tâche de données de stockage est créée, revenez au projet. Vous pouvez désormais effectuer les transformations dans les jeux de données créés.

Cliquez sur ... dans la tâche de données de stockage et sélectionnez Transformer les données afin de créer une tâche de données de transformation basée sur cette tâche de données de stockage. Pour obtenir des instructions sur les transformations, voir Transformation des données.
Créer un mini-data warehouse

Vous pouvez créer un mini-data warehouse basé sur une tâche de données de stockage ou une tâche de données de transformation.

Cliquez sur ... dans la tâche de données et sélectionnez Créer un mini-data warehouse pour créer une tâche de données de mini-data warehouse. Pour obtenir des instructions sur la création d'un mini-data warehouse, voir :

Création et gestion de mini-data warehouses

Lorsque vous avez effectué le premier chargement complet des jeux de données stockés et transformés et des mini-data warehouses, vous pouvez les utiliser dans une application analytique, par exemple. Pour plus d'informations sur la création d'applications analytiques, voir Création d'une application analytique utilisant des jeux de données générés par Qlik Talend Data Integration.

Vous pouvez également développer le pipeline de données en intégrant plus de sources de données et les combiner dans la transformation ou dans le mini-data warehouse.

Élaboration de pipelines interprojets

Vous pouvez élaborer des pipelines interprojets dans lesquels une tâche peut consommer des tâches d'un autre projet. Cela vous permet de réaliser la segmentation de plusieurs façons :

Vous pouvez créer un pipeline de déplacement de données distinct pour chaque unité organisationnelle et consommer les sorties dans un seul pipeline de datamart.
Vous pouvez créer un seul pipeline de déplacement de données et consommer la sortie dans plusieurs pipelines de transformation.

Les tâches Transformer et Datamart peuvent consommer des tâches Stockage et Transformer situées dans un autre projet.

Vous devez avoir au moins le rôle Peut consommer dans l'espace du projet consommé.
Les deux projets doivent être sur la même plateforme de données.

Tous les jeux de données d'une tâche sont partagés avec les projets en aval. Cela signifie que pour obtenir une ségrégation des jeux de données, vous devez filtrer les jeux de données du projet consommé en créant une tâche de transformation.

Dans la vue des projets, vous pouvez afficher les tâches consommées par un autre projet et les tâches d'autres projets qui sont consommées dans le projet en cours. Toutes les tâches en dehors du projet en cours sont grisées. Les dépendances se font par référence et non par nom, ce qui signifie que vous pouvez renommer une tâche sans rompre la référence. Cela signifie également que si vous supprimez une tâche consommée et que vous créez une nouvelle tâche portant le même nom, la référence restera rompue.

Il existe plusieurs façons de réutiliser les données existantes :

Création d'un projet

Sélectionnez l'option Utiliser les données d'un autre projet après avoir créé un projet.

Vous pouvez créer une transformation ou un datamart, en consommant des données intégrées provenant d'un autre pipeline.
Dans une tâche Transformer ou Datamart, vous pouvez sélectionner des données d'un autre projet dans Sélectionner les données sources.

Lors de la sélection des données sources, sélectionnez Projet, puis Tâche de données pour voir les jeux de données disponibles.

Vous pouvez choisir d'afficher les tâches d'autres projets qui consomment une tâche de ce projet.

Cliquez sur Couches et activez ou désactivez Sortie interprojet.

Toutes les tâches en dehors du projet en cours sont grisées.

Limitations du contrôle des versions

Les pipelines interprojets étant répartis entre plusieurs projets, cela ajoute de la complexité lors de l'utilisation du contrôle des versions. Dans ces exemples, Project1 est consommé par Project2.

Cliquez pour voir en taille réelle — Exemple de pipeline interprojet

Project2 ne peut consommer que la branche principale de Project1, mais Project2 peut lui-même se trouver sur une branche différente.
Vous pouvez créer une branche pour Project1, mais la version en branche n'indiquera pas qu'elle est consommée par Project2.
Vous pouvez fusionner Project2 avec la branche principale (Main), mais la dépendance continuera d'exister.

Bonnes pratiques

Vérifiez que les tâches du projet consommé sont au moins préparées, afin de vous assurer qu'elles sont valides.
Évitez de concevoir des pipelines qui créent une boucle ou des dépendances mutuelles entre les projets.
Si vous prévoyez d'exporter et d'importer des projets entre des clients, il sera plus facile de conserver les mêmes noms pour les espaces et les projets dans les clients. Si les noms sont différents, vous devrez mapper les projets et les tâches lors de l'importation du projet.
Pour pouvoir modifier la plate-forme de données à l'aide de l'exportation et de l'importation, il faut que tous les projets ayant des dépendances soient sur la même plate-forme.

Pour un changement de plateforme sûr et facile, procédez comme suit. Dans cet exemple, le projet consommé s'appelle Consumed (Consommé) et le projet qui lit à partir du projet Consumed s'appelle Consumer (Consommateur).
1. Exportez Consumed et Consumer.
2. Importez Consumed dans Consumed_New, en remplaçant la plate-forme de données actuelle par la nouvelle.
3. Importez Consumer dans Consumer_New, en remplaçant la plate-forme de données par la même que celle de Consumed_New, et en remplaçant le projet source (Consumed) par Consumed_New.

Opérations dans un projet de pipeline de données

Dans un projet, vous pouvez effectuer les mêmes opérations que celles disponibles dans une tâche de données. Cela vous permet d'orchestrer les opérations dans le pipeline de données.

Vous pouvez effectuer une seule opération de projet à la fois par projet.

Activation et désactivation des planifications
Réalisation d'opérations de conception
Démarrage et arrêt de l'exécution des tâches de données
Suppression de tâches de données

Cliquez sur Opérations pour afficher le statut d'une opération en cours ou la dernière opération effectuée.

Vous pouvez arrêter une opération en cours en cliquant sur Arrêter l'opération. Les tâches de données en cours ne seront pas arrêtées, mais cela annulera toute tâche qui n'a pas encore démarré.

Activation et désactivation des planifications

Vous pouvez contrôler les planifications des tâches de données au niveau du projet.

Cliquez sur ..., puis sur Planification.

Vous pouvez activer ou désactiver la planification de toutes les tâches de données ou d'une sélection de tâches. Seules les tâches pour lesquelles une planification est définie sont affichées.

Note InformationsCette option n'est pas disponible pour les projets avec Qlik Cloud comme plateforme de données.

Pour plus d'informations sur la planification de tâches de données individuelles, voir :

Réalisation d'opérations de conception

Vous pouvez effectuer des opérations de conception sur toutes les tâches de données du projet ou sur une sélection de tâches. Cela facilite le contrôle des tâches du jeu de données du projet, au lieu d'effectuer des opérations de conception individuellement dans chaque tâche.

Validate

Cliquez sur Valider pour valider toutes les tâches ou une sélection de tâches. Les tâches de données modifiées depuis la dernière opération de validation sont présélectionnées.

Les tâches de données sont validées dans l'ordre du pipeline.
Préparer

Cliquez sur Préparer pour préparer toutes les tâches ou une sélection de tâches. Les tâches de données modifiées depuis la dernière opération de préparation sont présélectionnées.

Vous pouvez décider de recréer les jeux de données nécessitant un changement de structure non supporté par la plateforme de données. Cela peut entraîner une perte de données.
Recréer

Cliquez sur ..., puis sur Recréer les tables pour recréer les jeux de données de la source pour toutes les tâches ou pour une sélection de tâches.

Note InformationsEn cas de problèmes avec des tables individuelles, il est recommandé de commencer par tenter d'actualiser les tables au lieu de les recréer. La recréation des tables peut entraîner une perte de données historiques. En cas de modifications importantes, vous devez également préparer les tâches de données en aval qui consomment les tâches de données recréées pour actualiser les données.

Exécution de tâches de données

Vous pouvez initier l'exécution de toutes les tâches de données du projet ou d'une sélection de tâches, au lieu d'exécuter des tâches individuellement. Par exemple, vous pouvez exécuter toutes les tâches avec une planification temporelle. Cela initiera les tâches en aval avec une planification basée sur des événements.

Exécuter

Cliquez sur Exécuter pour initier l'exécution de toutes les tâches ou d'une sélection de tâches. Cela initie l'exécution de toutes les tâches sélectionnées et se termine dès que leur exécution démarre.

Vous pouvez faire votre choix parmi toutes les tâches prêtes à être exécutées. Les tâches avec une planification temporelle et les tâches qui utilisent CDC sont présélectionnées. Les tâches avec une planification basée sur des événements ne sont pas présélectionnées, car elles seront exécutées lorsqu'elles auront des données à traiter.

Dans un projet avec Qlik Cloud comme plateforme de données, toutes les tâches de dépôt temporaire et de stockage sont présélectionnées.

Note InformationsToutes les tâches de données sont exécutées en parallèle. Cela signifie que des contrôles de dépendance peuvent empêcher l'exécution de certaines tâches.
Arrêter

Cliquez sur Arrêter pour arrêter toutes les tâches ou une sélection de tâches.

Vous pouvez sélectionner des tâches en cours d'exécution.

Suppression de tâches de données

Cliquez sur Supprimer pour supprimer toutes les tâches de données du projet ou une sélection de tâches.

Modification de la vue d'un projet

Il existe deux vues de projet différentes. Vous pouvez passer d'une vue à l'autre en cliquant sur Vue Pipeline.

La vue Pipeline affiche le flux de données des tâches de données.

Vous pouvez définir la quantité d'informations à afficher des tâches de données en cliquant sur Couches. Activez ou désactivez les informations suivantes :
- Statut
- Actualisation des données
- Planification
- Sortie interprojet
  
  Cela affichera les tâches d'autres projets qui consomment une tâche de ce projet. Toutes les tâches en dehors du projet en cours sont grisées.
La vue Carte affiche une carte contenant des informations sur la tâche de données.

Vous pouvez appliquer un filtre en fonction du type de ressource et du propriétaire.

Visualisation des données

Vous pouvez afficher un échantillon des données pour voir et valider la forme de vos données à mesure que vous concevez votre pipeline de données.

Les autorisations suivantes sont nécessaires :

L'affichage des données est activé au niveau client dans Administration.

Activez Paramètres > Contrôle de fonction > Affichage des données dans Intégration de données.
Vous êtes titulaire du rôle Peut afficher des données dans l'espace dans lequel réside la connexion.
Vous êtes titulaire du rôle Accès en lecture dans l'espace dans lequel réside le projet.

Pour afficher un échantillon de données dans la vue du pipeline de données :

Cliquez sur dans la bannière d'aperçu au bas de la vue du pipeline.
Sélectionnez la tâche de données pour laquelle vous souhaitez afficher un aperçu des données.

Un échantillon des données apparaît. Vous pouvez définir le nombre de lignes de données à inclure dans l'échantillon dans Nombre de lignes.

Export et import de projets

Vous pouvez exporter un projet dans un fichier JSON contenant tout ce qu'il faut pour reconstruire le projet. Il est possible d'importer le fichier JSON exporté sur le même client ou sur un autre client. Vous pouvez utiliser cette fonction, par exemple, pour déplacer des projets d'un client à un autre, ou pour effectuer des copies de sauvegarde de projets.

Pour plus d'informations, consultez Export et import de pipelines de données.

Modification du propriétaire d'un projet

Les tâches de données fonctionnent dans le contexte du propriétaire du projet auquel elles appartiennent. Vous pouvez modifier le propriétaire d'un projet pour transférer à un autre utilisateur le contrôle de toutes les tâches du projet de données. Cette fonction est utile, par exemple, si des projets appartiennent à un utilisateur qui a été supprimé.

Le changement de propriétaire d'un projet nécessite un rôle d'administrateur de clients ou d'administrateur de données. Pour plus d'informations sur les rôles et les autorisations nécessaires, voir Rôles et autorisations au sein d'un espace de données.

Dans la vue du projet, cliquez sur ..., puis sur Changer de propriétaire.

Le changement de propriétaire s'appliquera à toutes les tâches du projet. Tous les jeux de données catalogués qui sont créés par des tâches dans le projet changeront également de propriétaire.

Paramètres du projet

Vous pouvez définir des propriétés qui sont communes au projet et à toutes les tâches de données comprises.

Cliquez sur Paramètres.

Pour plus d'informations, consultez Paramètres de projet de pipeline de données.

Utilisation de Qlik Cloud Data Integration pour intégrer et transformer des données

En savoir plus

Utilisation de Qlik Cloud Data Integration pour intégrer et transformer des données

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici