Dépôt temporaire de données de flux dans Qlik Open Lakehouse
Les données sont déposées temporairement dans Amazon S3, prêtes pour la tâche de transformation de flux afin d'être converties au format de table ouverte Iceberg. Vous pouvez déposer temporairement des données provenant de toute source de flux supportée par Qlik.
Le dépôt temporaire de données de flux dans un Qlik Open Lakehouse nécessite un compartiment Amazon S3 préconfiguré. Qlik Open Lakehouse est spécifiquement optimisé pour les sources de données haut volume et compatible avec toutes les sources de données de flux supportées par Qlik. Pour plus d'informations sur les sources de flux supportées, consultez Connexion à des flux de données.
Les données brutes sont déposées temporairement au format Avro dans S3 et la tâche de transformation de flux convertit les données au format Iceberg. La spécification Iceberg permet d'interroger les données à partir de n'importe quel moteur qui supporte nativement Trino SQL, par exemple Amazon Athena, Ahana ou Starburst Enterprise. Les tables peuvent éventuellement être mises en miroir (reflétées) dans votre entrepôt de données cloud, où elles peuvent être interrogées sans dupliquer les données.
Le dépôt temporaire des données dans un Qlik Open Lakehouse est disponible dans les projets avec une connexion cible AWS Glue Data Catalog.
Préparations
-
Un cluster de stockage de lakehouse est nécessaire pour exécuter l'ingestion et il doit être configuré avant la création de votre projet.
-
Même si vous pouvez configurer les paramètres de connexion de la source et de la cible dans l'assistant de configuration, pour simplifier la procédure de configuration, il est recommandé de le faire avant de créer la tâche.
-
Pour mettre des données en miroir dans votre entrepôt de données cloud, vous devez commencer par créer un projet Qlik Open Lakehouse afin d'ingérer vos données et de les stocker au format de table ouverte Iceberg. Vous pouvez ajouter une tâche Refléter les données après la tâche de données de transformation de flux. Pour plus d'informations, consultez Mise en miroir des données dans un entrepôt de données cloud.
Création d'une tâche de dépôt temporaire de flux
Pour créer une tâche de dépôt temporaire de flux, procédez comme suit pour commencer par créer le projet :
-
Créez un projet et sélectionnez Pipeline de données dans Cas d'utilisation.
-
Sélectionnez Qlik Open Lakehouse dans Plateforme de données et établissez une connexion de catalogue de données.
-
Configurez une zone de stockage dans Connexion de la cible du dépôt temporaire.
-
Sélectionnez le Cluster de stockage du lakehouse pour effectuer l'ingestion et l'optimisation des données.
-
Cliquez sur Créer pour créer le projet.
Lorsque vous intégrez des données ou que vous créez une tâche de dépôt temporaire dans le projet, une tâche Dépôt temporaire de flux est créée au lieu d'une tâche Dépôt temporaire. Les tâches Dépôt temporaire de flux fonctionnent et se comportent de manière similaire à une tâche Dépôt temporaire, à l'exception du fait qu'elles déposent temporairement des données dans le stockage cloud à partir de sources de flux. Pour plus d'informations, consultez Connexion à des flux de données.
Tous les fichiers sont déposés temporairement au format Avro. Une fois que les données déposées temporairement sont mises à jour, la tâche Transformation de flux consomme les données déposées temporairement et met à jour les tables externes.
Configuration
Pour plus d'informations sur les paramètres de tâche, consultez Paramètres de dépôt temporaire de flux dans un lac.