Accéder au contenu principal Passer au contenu complémentaire

Création d'un pipeline de données

Vous pouvez créer un pipeline de données pour réaliser toute l'intégration de vos données dans un projet de données à l'aide des tâches de données. L'intégration déplace les données dans le projet depuis les sources de données qui sont sur site ou dans le cloud et les stocke dans des ensembles de données prêts à l'emploi. Vous pouvez également effectuer des transformations et créer des mini-data warehouses pour exploiter vos ensembles de données générés et transformés. Le pipeline des données peut être simple et linéaire ou il peut s'agir d'un pipeline complexe qui consomment plusieurs sources de données et proposent des résultats.

La création de l'ensemble des tâches de données s'effectue dans le même espace que celui du projet de données auquel elles appartiennent.

Vous pouvez également afficher la traçabilité pour suivre les données et les transformations de données en arrière jusqu'à la source d'origine et effectuer une analyse de l'impact qui montre la vue en aval, dirigée vers l'avant, des dépendances des tâches de données, ensembles de données ou champs. Pour plus d'informations, voir Utilisation de la traçabilité et de l'analyse de l'impact dans Intégration de données.

Intégration de données

Cette étape comprend le dépôt temporaire des données dans une zone intermédiaire puis le stockage des ensembles de données dans un entrepôt de données cloud. Les tâches de données de dépôt temporaire et de stockage sont créées en une seule étape. Si nécessaire, vous pouvez également effectuer le dépôt temporaire et le stockage dans des tâches séparées.

Enregistrement de données qui existent déjà sur la plateforme de données

Enregistrez les données qui existent déjà sur la plateforme de données pour organiser et transformer les données et créer des mini-data warehouses. Cela vous permet d'utiliser des données intégrées à d'autres outils que Qlik Cloud Data Integration, par exemple, Qlik Replicate ou Stitch.

Transformation des données

Créez des transformations réutilisables au niveau de la ligne sur les données intégrées en fonction de règles et de SQL personnalisé. Cela crée une tâche Transformer les données.

Création et gestion de mini-data warehouses

Créez un mini-data warehouse pour utiliser vos ensembles de données. Cette opération permet de créer une tâche de données Mini-data warehouse.

plateformes de données cibles

Le projet de données est associé à une plateforme de données utilisée comme cible pour tous les résultats.

Pour plus d'informations sur les plateformes de données prises en charge, voir Connexion à des cibles.

Vidéo d'introduction aux projets de données

Exemple de création d'un projet de données

L'exemple suivant illustre l'intégration des données, leur transformation et la création d'un mini-data warehouse. Il présente la création d'un pipeline de données linéaire simple que vous pouvez développer en intégrant d'autres sources de données, la création d'autres transformations et l'ajout de tâches de données générées au mini-data warehouse.

Exemple d'un pipeline de données linéaire simple dans un projet de données

  1. Cliquez sur Ajouter nouveau puis sur Créer un projet de données sur la page d'accueil de Qlik Cloud Data Integration.

    1. Saisissez un nom et une description pour le projet de données et sélectionnez un espace dans lequel créer le projet de données. La création de l'ensemble des tâches de données s'effectue dans l'espace du projet de données auquel elles appartiennent.

    2. Sélectionnez Pipeline de données dans Cas d'utilisation.
    3. Sélectionnez la plateforme de données à utiliser dans le projet.

    4. Sélectionnez une connexion de données à l'entrepôt de données cloud que vous voulez utiliser dans le projet. Elle permet de déposer temporairement les fichiers de données et de stocker les ensembles de données et les vues. Si vous n'avez pas encore préparé une connexion de données, créez-en une au moyen de Ajouter une connexion.

      Si vous avez sélectionné Google BigQuery, Databricks ou Microsoft Azure Synapse Analytics comme plateforme de données, vous devez également vous connecter à une zone intermédiaire.

    5. Si vous avez sélectionné Qlik Cloud comme plateforme de données :

      Vous pouvez soit stocker les données dans le stockage géré par Qlik ou dans le compartiment Amazon S3 que vous gérez. Si vous voulez utiliser votre propre compartiment Amazon S3, vous devez sélectionner une connexion de données à ce compartiment.

      Dans les deux cas, vous devez également sélectionner une connexion de données à une zone intermédiaire Amazon S3. Si vous utilisez le même compartiment que vous avez défini lors de l'étape précédente, assurez-vous d'utiliser un autre dossier dans le compartiment pour la mise en zone intermédiaire.

    6. Cliquez sur Créer.

      Le projet de données est créé et vous pouvez créer votre pipeline de données en ajoutant des tâches de données.

  2. Cliquez sur Ajouter nouveau puis sur Intégrer les données.

    Pour plus d'informations, voir Intégration de données.

    Cela créera une tâche de données de dépôt temporaire et une tâche de données de stockage. Pour commencer la réplication des données, vous devez :

  3. Lorsque la tâche de données de stockage est créée, revenez au projet de données. Vous pouvez désormais effectuer les transformations dans les ensembles de données créés.

    Cliquez sur ... dans la tâche de données de stockage et sélectionnez Transformer les données afin de créer une tâche de données de transformation basée sur cette tâche de données de stockage. Pour obtenir des instructions sur les transformations, voir Transformation des données.

  4. Vous pouvez créer un mini-data warehouse basé sur une tâche de données de stockage ou une tâche de données de transformation.

    Cliquez sur ... dans la tâche de données et sélectionnez Créer un mini-data warehouse pour créer une tâche de données de mini-data warehouse. Pour obtenir des instructions sur la création d'un mini-data warehouse, voir :

    Création et gestion de mini-data warehouses

Lorsque vous avez effectué le premier chargement complet des ensembles de données stockés et transformés et des mini-data warehouses, vous pouvez les utiliser dans une application analytique, par exemple. Pour plus d'informations sur la création d'applications analytiques, voir Création d'une application analytique utilisant des ensembles de données générés par Qlik Cloud Data Integration.

Vous pouvez également développer le pipeline de données en intégrant plus de sources de données et les combiner dans la transformation ou dans le mini-data warehouse.

Opérations dans un projet de données

Dans un projet de données, vous pouvez effectuer les mêmes opérations que celles disponibles dans une tâche de données. Cela vous permet d'orchestrer les opérations dans le pipeline de données.

Note InformationsVous pouvez effectuer une seule opération de projet de données à la fois par projet de données.
  • Activation et désactivation des planifications

  • Réalisation d'opérations de conception

  • Démarrage et arrêt de l'exécution des tâches de données

  • Suppression de tâches de données

Cliquez sur Opérations pour afficher le statut d'une opération en cours ou la dernière opération effectuée.

Vous pouvez arrêter une opération en cours en cliquant sur Arrêter l'opération. Les tâches de données en cours ne seront pas arrêtées, mais cela annulera toute tâche qui n'a pas encore démarré.

Activation et désactivation des planifications

Vous pouvez contrôler les planifications des tâches de données au niveau du projet.

  • Cliquez sur ..., puis sur Planification.

    Vous pouvez activer ou désactiver la planification de toutes les tâches de données ou d'une sélection de tâches. Seules les tâches pour lesquelles une planification est définie sont affichées.

    Note InformationsCette option n'est pas disponible pour les projets de données avec Qlik Cloud comme plateforme de données.

Pour plus d'informations sur la planification de tâches de données individuelles, voir :

Réalisation d'opérations de conception

Vous pouvez effectuer des opérations de conception sur toutes les tâches de données du projet de données ou sur une sélection de tâches. Cela facilite le contrôle des tâches de l'ensemble de données du projet de données, au lieu d'effectuer des opérations de conception individuellement dans chaque tâche.

  • Valider

    Cliquez sur Valider pour valider toutes les tâches ou une sélection de tâches. Les tâches de données modifiées depuis la dernière opération de validation sont présélectionnées.

    Les tâches de données sont validées dans l'ordre du pipeline.

  • Préparer

    Cliquez sur Préparer pour préparer toutes les tâches ou une sélection de tâches. Les tâches de données modifiées depuis la dernière opération de préparation sont présélectionnées.

    Vous pouvez décider de recréer les ensembles de données nécessitant un changement de structure non pris en charge par la plateforme de données. Cela peut entraîner une perte de données.

  • Recréer

    Cliquez sur ..., puis sur Recréer pour recréer les ensembles de données de la source pour toutes les tâches ou pour une sélection de tâches.

Exécution de tâches de données

Vous pouvez initier l'exécution de toutes les tâches de données du projet de données ou d'une sélection de tâches, au lieu d'exécuter des tâches individuellement. Par exemple, vous pouvez exécuter toutes les tâches avec une planification temporelle. Cela initiera les tâches en aval avec une planification basée sur des événements.

  • Exécuter

    Cliquez sur Exécuter pour initier l'exécution de toutes les tâches ou d'une sélection de tâches. Cela initie l'exécution de toutes les tâches sélectionnées et se termine dès que leur exécution démarre.

    Vous pouvez faire votre choix parmi toutes les tâches prêtes à être exécutées. Les tâches avec une planification temporelle et les tâches qui utilisent CDC sont présélectionnées. Les tâches avec une planification basée sur des événements ne sont pas présélectionnées, car elles seront exécutées lorsqu'elles auront des données à traiter.

    Dans un projet avec Qlik Cloud comme plateforme de données, toutes les tâches de dépôt temporaire et de stockage sont présélectionnées.

    Note InformationsToutes les tâches de données sont exécutées en parallèle. Cela signifie que des contrôles de dépendance peuvent empêcher l'exécution de certaines tâches.
  • Arrêter

    Cliquez sur Arrêter pour arrêter toutes les tâches ou une sélection de tâches.

    Vous pouvez sélectionner des tâches en cours d'exécution.

Suppression de tâches de données

  • Cliquez sur Supprimer pour supprimer toutes les tâches de données du projet de données ou une sélection de tâches.

Modification de la vue d'un projet de données

Il existe deux vues de projet de données différentes. Vous pouvez passer d'une vue à l'autre en cliquant sur Vue Pipeline.

  • La vue Pipeline affiche le flux de données des tâches de données.

    Vous pouvez définir la quantité d'informations à afficher des tâches de données en cliquant sur Couches. Activez ou désactivez les informations suivantes :

    • Statut

    • Actualisation des données

    • Planification

  • La vue Carte affiche une carte contenant des informations sur la tâche de données.

    Vous pouvez appliquer un filtre en fonction du type de ressource et du propriétaire.

Export et import de projets de données

Vous pouvez exporter un projet de données dans un fichier JSON contenant tout ce qu'il faut pour reconstruire le projet de données. Il est possible d'importer le fichier JSON exporté sur le même client ou sur un autre client. Vous pouvez utiliser cette fonction, par exemple, pour déplacer des projets de données d'un client à un autre, ou pour effectuer des copies de sauvegarde de projets de données.

Pour plus d'informations, voir Export et import de pipelines de données.

Paramètres du projet de données

Vous pouvez définir des propriétés qui sont communes au projet et à toutes les tâches de données comprises.

  • Cliquez sur Paramètres.

Pour plus d'informations, voir Paramètres du projet de données.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !