Intégration de données

La première étape de la création d'un pipeline de données d'un projet Qlik Open Lakehouse consiste à intégrer les données. Ce processus implique de transférer les données à partir de la source et de stocker les jeux de données dans des tables Iceberg optimisées. Les modifications apportées aux sources de données sont appliquées en continu aux tables de stockage par mini-lots efficaces.

L'intégration est créée en une seule opération, mais elle est réalisée en deux étapes.

Dépôt temporaire des données

Cela implique de transférer les données en continu de la source de données locale vers une zone de dépôt temporaire, via une tâche de données Dépôt temporaire.

Dépôt temporaire de données à partir de sources de données

Vous pouvez également déposer temporairement des données dans un lakehouse, dans lequel les données sont temporairement déposées dans un stockage de fichiers S3.

Dépôt temporaire des données dans Qlik Open Lakehouse
Stockage de jeux de données

Cela implique la lecture du chargement initial des données de dépôt temporaire ou des chargements incrémentiels et l'application des données dans un format optimisé pour la lecture via une tâche de données Stockage.

Stockage de jeux de données

Lorsque vous avez intégré les données, vous pouvez utiliser les jeux de données stockés de plusieurs manières.

Vous pouvez utiliser les jeux de données dans une application analytique.
Vous pouvez mettre des données en miroir dans Redshift ou Snowflake en ajoutant directement une tâche Refléter les données à la tâche de données de stockage.
Vous pouvez transformer des données dans Redshiflt ou Snowflake en créant un pipeline interprojets qui consomme les données de votre projet d'intégration.

Intégrer les données

Vous commencez à intégrer des données dans un projet. Les jeux de données sont stockés à l'emplacement S3 défini dans le projet. Pour plus d'informations sur les projets, consultez Création d'un projet de pipeline de données.

Dans votre projet, cliquez sur Créer, puis sur Intégrer les données.

Note ConseilVous pouvez également cliquer sur sur une source existante dans le projet, puis cliquer sur Intégrer les données.
Ajoutez un nom et une description pour l'intégration.

Cliquez sur Suivant.
Sélectionnez la connexion source.

Vous pouvez sélectionner une connexion source existante ou créer une nouvelle connexion à la source.

Pour plus d'informations, consultez Configuration des connexions aux sources de données.

Cliquez sur Suivant.
Sélectionner les données à charger.

Pour plus d'informations, consultez Sélection de données.

Cliquez sur Suivant.

Paramètres apparaît, vous permettant de sélectionner la méthode de mise à jour et les paramètres d'historique.
Sélectionnez la méthode à utiliser pour mettre les données à jour dans Méthode de mise à jour :
- Change Data Capture (CDC)
  
  Si vos données contiennent des tables qui ne supportent pas l'opération CDC ou les vues, deux pipelines de données seront créés : un pipeline avec l'ensemble des tables supportant CDC, et un autre pipeline avec l'ensemble des autres tables et vues utilisant Charger et comparer.
- Charger et comparer
Indiquez si vous souhaitez répliquer l'historique des anciennes données en plus des données actuelles dans Historique.
Lorsque vous êtes prêt, cliquez sur Suivant.
Prévisualisez les tâches de données créées pour intégrer les données, puis renommez-les, si vous préférez.

Note ConseilLes noms sont utilisés lors du nommage des schémas de base de données dans la tâche de données de stockage. Pensez à employer des noms uniques pour éviter tout conflit avec les tâches de données d'autres projets utilisant la même plateforme de données.
Indiquez si vous souhaitez ouvrir n'importe laquelle des tâches de données créées ou revenir au projet.

Lorsque vous êtes prêt, cliquez sur Terminer.
Les tâches de données d'intégration sont maintenant créées. Pour commencer la réplication des données, vous devez :
Préparer et exécuter la tâche de données de dépôt temporaire.

Pour plus d'informations, consultez Dépôt temporaire de données à partir de sources de données.
Préparer et exécuter la tâche de données de stockage.

Pour plus d'informations, consultez Stockage de jeux de données.

Sélection de données

Vous pouvez sélectionner certaines tables ou vues, ou utiliser des règles de sélection pour inclure ou exclure des groupes de tables.

Si la sélection comprend des vues, CDC n'est pas pris en charge.

Utilisez % comme caractère générique pour définir des critères de sélection pour les schémas et les tables.

%.% définit toutes les tables de tous les schémas.
Public.% définit toutes les tables du schéma Public.

Critères de sélection vous fournit un aperçu selon vos sélections.

Vous pouvez effectuer l'une des deux opérations suivantes :

Créez une règle pour inclure ou exclure un groupe de tables en fonction des critères de sélection.

Cliquez sur Ajouter une règle à partir des critères de sélection pour créer une règle, puis sélectionnez Inclure ou Exclure.

Vous pouvez voir la règle sous Règles de sélection.
Sélectionnez un ou plusieurs ensembles de données, puis cliquez sur Ajouter les ensembles de données sélectionnés.

Vous pouvez voir les ensembles de données ajoutés sous Ensembles de données sélectionnés de manière explicite.

Les règles de sélection ne s'appliquent qu'à l'ensemble actuel de tables et de vues, et non aux tables et aux vues ajoutées après.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici