Accéder au contenu principal Skip to complementary content

Création d'un pipeline de données dans un projet de données

Vous pouvez créer un pipeline de données pour réaliser toute l'intégration de vos données dans un projet de données à l'aide des tâches de données. L'intégration déplace les données dans le projet depuis les sources de données qui sont sur site ou dans le cloud et les stocke dans des ensembles de données prêts à l'emploi. Vous pouvez également effectuer des transformations et créer des mini-data warehouses pour exploiter vos ensembles de données générés et transformés. Le pipeline des données peut être simple et linéaire ou il peut s'agir d'un pipeline complexe qui consomment plusieurs sources de données et proposent des résultats.

Il s'agit des principales tâches que vous pouvez effectuer dans un projet de données. Vous pouvez les combiner comme vous le souhaitez.

  1. Intégrez les données.

    Cette étape comprend le dépôt temporaire des données dans une zone intermédiaire puis le stockage des ensembles de données dans un entrepôt de données cloud. Les tâches de données de dépôt temporaire et de stockage sont créées en une seule étape. Si nécessaire, vous pouvez également effectuer le dépôt temporaire et le stockage dans des tâches séparées.

    Intégration de données

  2. Transformez les données intégrées.

    Créez des transformations réutilisables au niveau de la ligne en fonction de règles et de SQL personnalisé. Cela crée une tâche Transformer les données.

    Transformation des données

  3. Créez un mini-data warehouse pour utiliser vos ensembles de données. Cette opération permet de créer une tâche de données Mini-data warehouse.

    Création et gestion de mini-data warehouses

Le projet de données est associé à une plate-forme de données utilisée comme cible pour tous les résultats. Les plate-formes suivantes sont prises en charge :

  • Google BigQuery

  • Snowflake

  • Microsoft Azure Synapse Analytics

  • Databricks

  • Qlik Cloud

    L'utilisation de cette plate-forme exige de déposer temporairement des données dans un compartiment Amazon S3. Vous pouvez générer des tables QVD dans le stockage géré par Qlik Cloud ou dans le stockage Amazon S3 que vous gérez.

Pour en savoir plus sur la connexion aux plate-formes de données, voir Connexion à des plates-formes de données cloud dans vos projets de données.

La création de l'ensemble des tâches de données s'effectue dans le même espace que celui du projet de données auquel elles appartiennent.

Exemple de création d'un projet de données

L'exemple suivant illustre l'intégration des données, leur transformation et la création d'un mini-data warehouse. Il présente la création d'un pipeline de données linéaire simple que vous pouvez développer en intégrant d'autres sources de données, la création d'autres transformations et l'ajout de tâches de données générées au mini-data warehouse.

Exemple d'un pipeline de données linéaire simple dans un projet de données

  1. Cliquez sur Ajouter nouveau puis sur Créer un projet de données sur la page d'accueil de Intégration de données Qlik Cloud.

    1. Saisissez un nom et une description pour le projet de données et sélectionnez un espace dans lequel créer le projet de données. La création de l'ensemble des tâches de données s'effectue dans l'espace du projet de données auquel elles appartiennent.

    2. Sélectionnez la plate-forme de données à utiliser dans le projet.

    3. Sélectionnez une connexion de données à l'entrepôt de données cloud que vous voulez utiliser dans le projet. Elle permet de déposer temporairement les fichiers de données et de stocker les ensembles de données et les vues. Si vous n'avez pas encore préparé une connexion de données, créez-en une au moyen de Ajouter une connexion.

      Si vous avez sélectionné Google BigQuery, Databricks, ou Microsoft Azure Synapse Analytics comme plate-forme de données, vous devez également vous connecter à une zone intermédiaire.

    4. Si vous avez sélectionné Qlik Cloud comme plate-forme de données :

      Vous pouvez soit stocker les données dans le stockage géré par Qlik ou dans le compartiment Amazon S3 que vous gérez. Si vous voulez utiliser votre propre compartiment Amazon S3, vous devez sélectionner une connexion de données à ce compartiment.

      Dans les deux cas, vous devez également sélectionner une connexion de données à une zone intermédiaire Amazon S3. Si vous utilisez le même compartiment que vous avez défini lors de l'étape précédente, assurez-vous d'utiliser un autre dossier dans le compartiment pour la mise en zone intermédiaire.

    5. Cliquez sur Créer.

      Le projet de données est créé et vous pouvez créer votre pipeline de données en ajoutant des tâches de données.

  2. Cliquez sur Ajouter nouveau puis sur Intégrer les données.

    Pour plus d'informations, voir Intégration de données.

    Cela créera une tâche de données de dépôt temporaire et une tâche de données de stockage. Pour commencer la réplication des données, vous devez :

  3. Lorsque la tâche de données de stockage est créée, revenez au projet de données. Vous pouvez désormais effectuer les transformations dans les ensembles de données créés.

    Cliquez sur ... dans la tâche de données de stockage et sélectionnez Transformer les données afin de créer une tâche de données de transformation basée sur cette tâche de données de stockage. Pour obtenir des instructions sur les transformations, voir Transformation des données.

  4. Vous pouvez créer un mini-data warehouse basé sur une tâche de données de stockage ou une tâche de données de transformation.

    Cliquez sur ... dans la tâche de données et sélectionnez Créer un mini-data warehouse pour créer une tâche de données de mini-data warehouse. Pour obtenir des instructions sur la création d'un mini-data warehouse, voir :

    Création et gestion de mini-data warehouses

Lorsque vous avez effectué le premier chargement complet des ensembles de données stockés et transformés et des mini-data warehouses, vous pouvez les utiliser dans une application analytique, par exemple. Pour plus d'informations sur la création d'applications analytiques, voir Création d'une application analytique utilisant des ensembles de données générés par Intégration de données Qlik Cloud.

Vous pouvez également développer le pipeline de données en intégrant plus de sources de données et les combiner dans la transformation ou dans le mini-data warehouse.

Exportation et importation de projets de données

Vous pouvez exporter un projet de données dans un fichier JSON contenant tout ce qu'il faut pour reconstruire le projet de données. Il est possible d'importer le fichier JSON exporté sur le même client ou sur un autre client. Vous pouvez utiliser cette fonction, par exemple, pour déplacer des projets de données d'un client à un autre, ou pour effectuer des copies de sauvegarde de projets de données.

Pour plus d'informations, voir Exportation et importation de projets de données.

Paramètres du projet de données

Vous pouvez définir des propriétés qui sont communes au projet et à toutes les tâches de données comprises.

  • Cliquez sur Paramètres.

Pour plus d'informations, voir Paramètres du projet de données.