Dépôt temporaire de données de flux dans Qlik Open Lakehouse

Vous pouvez déposer temporairement des données provenant d'une source de flux dans Amazon S3, prêtes pour la tâche de transformation de flux afin d'être converties au format de table ouverte Iceberg.

Le dépôt temporaire de données de flux dans un Qlik Open Lakehouse nécessite un compartiment Amazon S3 préconfiguré. Qlik Open Lakehouse est spécifiquement optimisé pour les sources de données haut volume et compatible avec toutes les sources de données de flux supportées par Qlik. Pour plus d'informations sur les sources de flux supportées, consultez Connexion à des flux de données.

Les données brutes sont déposées temporairement au format Avro dans S3 et la tâche de transformation de flux convertit les données au format Iceberg. La spécification Iceberg permet d'interroger les données à partir de n'importe quel moteur qui supporte nativement Trino SQL, par exemple Amazon Athena, Ahana ou Starburst Enterprise. Les tables peuvent éventuellement être mises en miroir (reflétées) dans votre entrepôt de données cloud, où elles peuvent être interrogées sans dupliquer les données.

Préparations

Assurez-vous d'avoir configuré Qlik Open Lakehouse. Cela inclut la création d'une intégration réseau, d'un cluster de lakehouse et de connexions source et cible. Pour plus d'informations, consultez Configuration de Qlik Open Lakehouse.
Pour mettre des données en miroir dans votre entrepôt de données cloud, vous devez commencer par créer un projet Qlik Open Lakehouse afin d'ingérer vos données et de les stocker au format de table ouverte Iceberg. Vous pouvez ajouter une tâche Refléter les données après la tâche de données de transformation de flux. Pour plus d'informations, consultez Mise en miroir des données dans un entrepôt de données cloud.

Création d'une tâche de dépôt temporaire de flux

Pour créer une tâche de dépôt temporaire de flux, procédez comme suit pour commencer par créer le projet :

Créez un projet et sélectionnez Pipeline de données dans Cas d'utilisation.
Sélectionnez Qlik Open Lakehouse dans Plateforme de données et établissez une connexion de catalogue de données.
Configurez une zone de stockage dans Connexion de la cible du dépôt temporaire.
Cliquez sur Créer pour créer le projet.

Lorsque vous intégrez des données ou que vous créez une tâche de dépôt temporaire dans le projet, une tâche Dépôt temporaire de flux est créée au lieu d'une tâche Dépôt temporaire. Les tâches Dépôt temporaire de flux fonctionnent et se comportent de manière similaire à une tâche Dépôt temporaire, à l'exception du fait qu'elles déposent temporairement des données dans le stockage cloud à partir de sources de flux. Pour plus d'informations, consultez Connexion à des flux de données.

Tous les fichiers sont déposés temporairement au format Avro. Une fois que les données déposées temporairement sont mises à jour, la tâche Transformation de flux consomme les données déposées temporairement et met à jour les tables externes.

Affichage des informations sur les tâches

Cliquez sur dans la barre de menus pour afficher les informations sur les tâches telles que :

Propriétaire
Espace
Plateforme de données
ID de projet
ID d'exécution de la tâche de données

Opérations

Les opérations suivantes sont disponibles dans une tâche de dépôt temporaire de flux :

Suppression d'une colonne

Sélectionnez la colonne et cliquez sur Supprimer.

Cette opération ajoutera une règle de transformation qui supprime la colonne des données récemment chargées une fois la tâche préparée et exécutée. Vous pouvez restaurer la colonne des nouveaux enregistrements en supprimant la règle de transformation.
Hachage d'une colonne, par exemple pour masquer des informations sensibles.

Sélectionnez Hacher dans la colonne.

Cela générera un hachage SHA-256 de la colonne d'entrée après l'avoir concaténée avec la chaîne de salage de hachage. Vous définissez la chaîne de salage de hachage dans les paramètres du projet sous Métadonnées > Hachage. Ce paramètre est disponible uniquement dans les projets Qlik Open Lakehouse. Pour plus d'informations, consultez Métadonnées.

Le type de données est remplacé par Chaîne lorsqu'une colonne est hachée. Si vous souhaitez conserver également les données non hachées pour les utilisateurs privilégiés, effectuez le hachage ultérieurement dans une tâche de transformation.
Filtrage des données

Pour plus d'informations, consultez Filtrage d'un jeu de données.
Renommer un jeu de données

Cliquez sur dans le jeu de données et sélectionnez Renommer.

Suppression d'une tâche

Vous pouvez supprimer la tâche de données si elle n'est pas en cours d'exécution et s'il n'existe pas de dépendances vis-à-vis des tâches en aval dans le même projet.

Dans la vue Projet de pipeline du projet, cliquez sur sur une tâche et sélectionnez Supprimer.

Les artefacts (tables et vues) créés par la tâche seront également supprimés, sauf si vous choisissez de les conserver.

Gardez à l'esprit que les artefacts que vous conservez ne seront plus mis à jour par la tâche.

Configuration

Pour plus d'informations sur les paramètres de tâche, consultez Paramètres de dépôt temporaire de flux dans un lac.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici