Accéder au contenu principal Passer au contenu complémentaire

Création d'un pipeline de données

Vous pouvez créer un pipeline de données pour réaliser toute l'intégration de vos données dans un projet à l'aide de tâches de données. L'intégration déplace les données dans le projet depuis les sources de données qui sont sur site ou dans le cloud et les stocke dans des jeux de données prêts à l'emploi. Vous pouvez également effectuer des transformations et créer des mini-data warehouses pour exploiter vos jeux de données générés et transformés. Le pipeline des données peut être simple et linéaire ou il peut s'agir d'un pipeline complexe qui consomment plusieurs sources de données et proposent des résultats.

La création de l'ensemble des tâches de données s'effectue dans le même espace que celui du projet auquel elles appartiennent.

Vous pouvez également afficher la traçabilité pour suivre les données et les transformations de données en arrière jusqu'à la source d'origine et effectuer une analyse de l'impact qui montre la vue en aval, dirigée vers l'avant, des dépendances des tâches de données, jeux de données ou champs. Pour plus d'informations, consultez Utilisation de la traçabilité et de l'analyse de l'impact dans Intégration de données.

Intégration de données

Cette étape comprend le dépôt temporaire des données dans une zone intermédiaire puis le stockage des jeux de données dans un entrepôt de données cloud. Les tâches de données de dépôt temporaire et de stockage sont créées en une seule étape. Si nécessaire, vous pouvez également effectuer le dépôt temporaire et le stockage dans des tâches séparées.

Enregistrement de données qui existent déjà sur la plateforme de données

Enregistrez les données qui existent déjà sur la plateforme de données pour organiser et transformer les données et créer des mini-data warehouses. Cela vous permet d'utiliser des données intégrées à d'autres outils que Qlik Talend Data Integration, par exemple, Qlik Replicate ou Stitch.

Transformation des données

Créez des transformations réutilisables au niveau de la ligne sur les données intégrées en fonction de règles et de SQL personnalisé. Cela crée une tâche Transformer les données.

Création et gestion de mini-data warehouses

Créez un mini-data warehouse pour utiliser vos jeux de données. Cette opération permet de créer une tâche de données Mini-data warehouse.

plateformes de données cibles

Le projet est associé à une plateforme de données utilisée comme cible pour tous les résultats.

Pour plus d'informations sur les plateformes de données supportées, voir Configuration des connexions aux cibles.

Vidéo d'introduction aux projets

Exemple de création d'un projet

L'exemple suivant illustre l'intégration des données, leur transformation et la création d'un mini-data warehouse. Il présente la création d'un pipeline de données linéaire simple que vous pouvez développer en intégrant d'autres sources de données, la création d'autres transformations et l'ajout de tâches de données générées au mini-data warehouse.

Exemple d'un pipeline de données linéaire dans un projet

  1. Dans Intégration des données > Projets, cliquez sur Créer un projet.

    1. Saisissez un nom et une description pour le projet et sélectionnez un espace dans lequel créer le projet. La création de l'ensemble des tâches de données s'effectue dans l'espace du projet auquel elles appartiennent.

      Note InformationsSi vous activez ultérieurement le contrôle des versions pour le projet, vous ne pourrez pas modifier le nom du projet tant qu'il est sous le contrôle des versions.
    2. Sélectionnez Pipeline de données dans Cas d'utilisation.
    3. Sélectionnez la plateforme de données à utiliser dans le projet.

    4. Sélectionnez une connexion à l'entrepôt de données cloud que vous voulez utiliser dans le projet. Elle permet de déposer temporairement les fichiers de données et de stocker les jeux de données et les vues. Si vous n'avez pas encore préparé de connexion, créez-en une au moyen de Ajouter une connexion.

      Si vous avez sélectionné Google BigQuery, Databricks ou Microsoft Azure Synapse Analytics comme plateforme de données, vous devez également vous connecter à une zone intermédiaire.

    5. Si vous avez sélectionné Qlik Cloud comme plateforme de données :

      Vous pouvez soit stocker les données dans le stockage géré par Qlik ou dans le compartiment Amazon S3 que vous gérez. Si vous voulez utiliser votre propre compartiment Amazon S3, vous devez sélectionner une connexion à ce compartiment.

      Dans les deux cas, vous devez également sélectionner une connexion à une zone intermédiaire Amazon S3. Si vous utilisez le même compartiment que vous avez défini lors de l'étape précédente, assurez-vous d'utiliser un autre dossier dans le compartiment pour la mise en zone intermédiaire.

    6. Cliquez sur Créer.

      Le projet est créé et vous pouvez créer votre pipeline de données en ajoutant des tâches de données.

  2. Dans le projet, cliquez sur Créer, puis sur Intégrer les données.

    Pour plus d'informations, consultez Intégration de données.

    Cela créera une tâche de données de dépôt temporaire et une tâche de données de stockage. Pour commencer la réplication des données, vous devez :

  3. Lorsque la tâche de données de stockage est créée, revenez au projet. Vous pouvez désormais effectuer les transformations dans les jeux de données créés.

    Cliquez sur ... dans la tâche de données de stockage et sélectionnez Transformer les données afin de créer une tâche de données de transformation basée sur cette tâche de données de stockage. Pour obtenir des instructions sur les transformations, voir Transformation des données.

  4. Vous pouvez créer un mini-data warehouse basé sur une tâche de données de stockage ou une tâche de données de transformation.

    Cliquez sur ... dans la tâche de données et sélectionnez Créer un mini-data warehouse pour créer une tâche de données de mini-data warehouse. Pour obtenir des instructions sur la création d'un mini-data warehouse, voir :

    Création et gestion de mini-data warehouses

Lorsque vous avez effectué le premier chargement complet des jeux de données stockés et transformés et des mini-data warehouses, vous pouvez les utiliser dans une application analytique, par exemple. Pour plus d'informations sur la création d'applications analytiques, voir Création d'une application analytique utilisant des ensembles de données générés par Qlik Talend Data Integration.

Vous pouvez également développer le pipeline de données en intégrant plus de sources de données et les combiner dans la transformation ou dans le mini-data warehouse.

Opérations dans un projet de pipeline de données

Dans un projet, vous pouvez effectuer les mêmes opérations que celles disponibles dans une tâche de données. Cela vous permet d'orchestrer les opérations dans le pipeline de données.

Note InformationsVous pouvez effectuer une seule opération de projet à la fois par projet.
  • Activation et désactivation des planifications

  • Réalisation d'opérations de conception

  • Démarrage et arrêt de l'exécution des tâches de données

  • Suppression de tâches de données

Cliquez sur Opérations pour afficher le statut d'une opération en cours ou la dernière opération effectuée.

Vous pouvez arrêter une opération en cours en cliquant sur Arrêter l'opération. Les tâches de données en cours ne seront pas arrêtées, mais cela annulera toute tâche qui n'a pas encore démarré.

Activation et désactivation des planifications

Vous pouvez contrôler les planifications des tâches de données au niveau du projet.

  • Cliquez sur ..., puis sur Planification.

    Vous pouvez activer ou désactiver la planification de toutes les tâches de données ou d'une sélection de tâches. Seules les tâches pour lesquelles une planification est définie sont affichées.

    Note InformationsCette option n'est pas disponible pour les projets avec Qlik Cloud comme plateforme de données.

Pour plus d'informations sur la planification de tâches de données individuelles, voir :

Réalisation d'opérations de conception

Vous pouvez effectuer des opérations de conception sur toutes les tâches de données du projet ou sur une sélection de tâches. Cela facilite le contrôle des tâches du jeu de données du projet, au lieu d'effectuer des opérations de conception individuellement dans chaque tâche.

  • Validate

    Cliquez sur Valider pour valider toutes les tâches ou une sélection de tâches. Les tâches de données modifiées depuis la dernière opération de validation sont présélectionnées.

    Les tâches de données sont validées dans l'ordre du pipeline.

  • Préparer

    Cliquez sur Préparer pour préparer toutes les tâches ou une sélection de tâches. Les tâches de données modifiées depuis la dernière opération de préparation sont présélectionnées.

    Vous pouvez décider de recréer les jeux de données nécessitant un changement de structure non supporté par la plateforme de données. Cela peut entraîner une perte de données.

  • Recréer

    Cliquez sur ..., puis sur Recréer pour recréer les jeux de données de la source pour toutes les tâches ou pour une sélection de tâches.

Exécution de tâches de données

Vous pouvez initier l'exécution de toutes les tâches de données du projet ou d'une sélection de tâches, au lieu d'exécuter des tâches individuellement. Par exemple, vous pouvez exécuter toutes les tâches avec une planification temporelle. Cela initiera les tâches en aval avec une planification basée sur des événements.

  • Exécuter

    Cliquez sur Exécuter pour initier l'exécution de toutes les tâches ou d'une sélection de tâches. Cela initie l'exécution de toutes les tâches sélectionnées et se termine dès que leur exécution démarre.

    Vous pouvez faire votre choix parmi toutes les tâches prêtes à être exécutées. Les tâches avec une planification temporelle et les tâches qui utilisent CDC sont présélectionnées. Les tâches avec une planification basée sur des événements ne sont pas présélectionnées, car elles seront exécutées lorsqu'elles auront des données à traiter.

    Dans un projet avec Qlik Cloud comme plateforme de données, toutes les tâches de dépôt temporaire et de stockage sont présélectionnées.

    Note InformationsToutes les tâches de données sont exécutées en parallèle. Cela signifie que des contrôles de dépendance peuvent empêcher l'exécution de certaines tâches.
  • Arrêter

    Cliquez sur Arrêter pour arrêter toutes les tâches ou une sélection de tâches.

    Vous pouvez sélectionner des tâches en cours d'exécution.

Suppression de tâches de données

  • Cliquez sur Supprimer pour supprimer toutes les tâches de données du projet ou une sélection de tâches.

Modification de la vue d'un projet

Il existe deux vues de projet différentes. Vous pouvez passer d'une vue à l'autre en cliquant sur Vue Pipeline.

  • La vue Pipeline affiche le flux de données des tâches de données.

    Vous pouvez définir la quantité d'informations à afficher des tâches de données en cliquant sur Couches. Activez ou désactivez les informations suivantes :

    • Statut

    • Actualisation des données

    • Planification

  • La vue Carte affiche une carte contenant des informations sur la tâche de données.

    Vous pouvez appliquer un filtre en fonction du type de ressource et du propriétaire.

Visualisation des données

Vous pouvez afficher un échantillon des données pour voir et valider la forme de vos données à mesure que vous concevez votre pipeline de données.

Les autorisations suivantes sont nécessaires :

  • L'affichage des données est activé au niveau client dans Administration.

    Activez Paramètres > Contrôle de fonction > Affichage des données dans Intégration de données.

  • Vous êtes titulaire du rôle Peut afficher des données dans l'espace dans lequel réside la connexion.

  • Vous êtes titulaire du rôle Accès en lecture dans l'espace dans lequel réside le projet.

Pour afficher un échantillon de données dans la vue du pipeline de données :

  1. Cliquez sur Haut dans la bannière d'aperçu au bas de la vue du pipeline.

  2. Sélectionnez la tâche de données pour laquelle vous souhaitez afficher un aperçu des données.

Un échantillon des données apparaît. Vous pouvez définir le nombre de lignes de données à inclure dans l'échantillon dans Nombre de lignes.

Export et import de projets

Vous pouvez exporter un projet dans un fichier JSON contenant tout ce qu'il faut pour reconstruire le projet. Il est possible d'importer le fichier JSON exporté sur le même client ou sur un autre client. Vous pouvez utiliser cette fonction, par exemple, pour déplacer des projets d'un client à un autre, ou pour effectuer des copies de sauvegarde de projets.

Pour plus d'informations, consultez Export et import de pipelines de données.

Paramètres du projet

Vous pouvez définir des propriétés qui sont communes au projet et à toutes les tâches de données comprises.

  • Cliquez sur Paramètres.

Pour plus d'informations, consultez Paramètres de projet de pipeline de données.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !