Accéder au contenu principal Passer au contenu complémentaire

Intégration de données

La première étape de la création d'un pipeline de données d'un projet Qlik Open Lakehouse consiste à intégrer les données. Ce processus implique de transférer les données à partir de la source et de stocker les jeux de données dans des tables Iceberg optimisées.

L'intégration est créée en une seule opération, mais elle est réalisée en deux étapes. Le type de source de données, CDC ou flux, détermine les tâches de votre projet :

Sources CDC

  • Dépôt temporaire des données

    Cela implique de transférer les données sous forme de mini lots continus de la source de données locale vers une zone de dépôt temporaire, via une tâche de données Dépôt temporaire.

    Dépôt temporaire de données à partir de sources de données

    Vous pouvez également déposer temporairement des données dans un lakehouse, dans lequel les données sont temporairement déposées dans un stockage de fichiers S3.

    Dépôt temporaire de données dans Qlik Open Lakehouse

  • Stockage de jeux de données

    Cela implique la lecture du chargement initial des données de dépôt temporaire ou des chargements incrémentiels et l'application des données dans un format optimisé pour la lecture via une tâche de données Stockage.

    Stockage de jeux de données

Sources de flux

  • Dépôt temporaire des données

    Cela implique de transférer les données sous forme de flux en continu de la source vers une zone de dépôt temporaire, via une tâche de données Dépôt temporaire de flux.

    Dépôt temporaire de données de flux dans Qlik Open Lakehouse

  • Stockage de jeux de données

    Cela implique la lecture du chargement initial des données de dépôt temporaire et l'application des données dans un format optimisé pour la lecture via une tâche de données Transformation de stockage.

    Stockage de jeux de données de flux

Utilisation des données intégrées

Lorsque vous avez intégré les données, vous pouvez utiliser les jeux de données stockés de plusieurs manières, notamment :

  • Vous pouvez utiliser les jeux de données dans une application analytique.

  • Vous pouvez mettre des données en miroir dans un ou plusieurs entrepôts de données cloud, y compris Amazon Redshift et Snowflake, en ajoutant une tâche Refléter les données directement à la tâche de données Stockage pour les sources CDC ou à la tâche Transformation de flux pour les sources de flux.

    Pour plus d'informations, consultez Mise en miroir des données dans un entrepôt de données cloud.

  • Vous pouvez transformer des données dans votre entrepôt de données cloud en créant un pipeline interprojets qui consomme les données de votre projet d'intégration.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.