Dépôt temporaire de données de flux dans Qlik Open Lakehouse
Vous pouvez déposer temporairement des données provenant d'une source de flux dans Amazon S3, prêtes pour la tâche de transformation de flux afin d'être converties au format de table ouverte Iceberg.
Le dépôt temporaire de données de flux dans un Qlik Open Lakehouse nécessite un compartiment Amazon S3 préconfiguré. Qlik Open Lakehouse est spécifiquement optimisé pour les sources de données haut volume et compatible avec toutes les sources de données de flux supportées par Qlik. Pour plus d'informations sur les sources de flux supportées, consultez Connexion à des flux de données.
Les données brutes sont déposées temporairement au format Avro dans S3 et la tâche de transformation de flux convertit les données au format Iceberg. La spécification Iceberg permet d'interroger les données à partir de n'importe quel moteur qui supporte nativement Trino SQL, par exemple Amazon Athena, Ahana ou Starburst Enterprise. Les tables peuvent éventuellement être mises en miroir (reflétées) dans votre entrepôt de données cloud, où elles peuvent être interrogées sans dupliquer les données.
Préparations
-
Assurez-vous d'avoir configuré Qlik Open Lakehouse. Cela inclut la création d'une intégration réseau, d'un cluster de lakehouse et de connexions source et cible. Pour plus d'informations, consultez Configuration de Qlik Open Lakehouse.
-
Pour mettre des données en miroir dans votre entrepôt de données cloud, vous devez commencer par créer un projet Qlik Open Lakehouse afin d'ingérer vos données et de les stocker au format de table ouverte Iceberg. Vous pouvez ajouter une tâche Refléter les données après la tâche de données de transformation de flux. Pour plus d'informations, consultez Mise en miroir des données dans un entrepôt de données cloud.
Création d'une tâche de dépôt temporaire de flux
Pour créer une tâche de dépôt temporaire de flux, procédez comme suit pour commencer par créer le projet :
-
Créez un projet et sélectionnez Pipeline de données dans Cas d'utilisation.
-
Sélectionnez Qlik Open Lakehouse dans Plateforme de données et établissez une connexion de catalogue de données.
-
Configurez une zone de stockage dans Connexion de la cible du dépôt temporaire.
-
Cliquez sur Créer pour créer le projet.
Lorsque vous intégrez des données ou que vous créez une tâche de dépôt temporaire dans le projet, une tâche Dépôt temporaire de flux est créée au lieu d'une tâche Dépôt temporaire. Les tâches Dépôt temporaire de flux fonctionnent et se comportent de manière similaire à une tâche Dépôt temporaire, à l'exception du fait qu'elles déposent temporairement des données dans le stockage cloud à partir de sources de flux. Pour plus d'informations, consultez Connexion à des flux de données.
Tous les fichiers sont déposés temporairement au format Avro. Une fois que les données déposées temporairement sont mises à jour, la tâche Transformation de flux consomme les données déposées temporairement et met à jour les tables externes.
Affichage des informations sur les tâches
Cliquez sur dans la barre de menus pour afficher les informations sur les tâches telles que :
-
Propriétaire
-
Espace
-
Plateforme de données
-
ID de projet
-
ID d'exécution de la tâche de données
Opérations
Les opérations suivantes sont disponibles dans une tâche de dépôt temporaire de flux :
-
Suppression d'une colonne
Sélectionnez la colonne et cliquez sur Supprimer.
Cette opération ajoutera une règle de transformation qui supprime la colonne des données récemment chargées une fois la tâche préparée et exécutée. Vous pouvez restaurer la colonne des nouveaux enregistrements en supprimant la règle de transformation.
-
Hachage d'une colonne, par exemple pour masquer des informations sensibles.
Sélectionnez Hacher dans la colonne.
Cela générera un hachage SHA-256 de la colonne d'entrée après l'avoir concaténée avec la Chaîne de salage de hachage. Chaîne de sel de hachage est un paramètre de projet disponible dans les projets Qlik Open Lakehouse.
Le type de données est remplacé par Chaîne lorsqu'une colonne est hachée. Si vous souhaitez conserver également les données non hachées pour les utilisateurs privilégiés, effectuez le hachage ultérieurement dans une tâche de transformation.
-
Filtrage des données
Pour plus d'informations, consultez Filtrage d'un jeu de données.
-
Renommer un jeu de données
Cliquez sur
dans le jeu de données et sélectionnez Renommer.
Suppression d'une tâche
Vous pouvez supprimer la tâche de données si elle n'est pas en cours d'exécution et s'il n'existe pas de dépendances vis-à-vis des tâches en aval dans le même projet.
-
Dans la vue Projet de pipeline du projet, cliquez sur
sur une tâche et sélectionnez Supprimer.
Les artefacts (tables et vues) créés par la tâche seront également supprimés, sauf si vous choisissez de les conserver.
Configuration
Pour plus d'informations sur les paramètres de tâche, consultez Paramètres de dépôt temporaire de flux dans un lac.