Dépôt temporaire des données dans Qlik Open Lakehouse
Les données sont déposées temporairement dans Amazon S3, prêtes pour la tâche de données de stockage afin d'être converties au format de table ouverte Iceberg. Vous pouvez déposer temporairement des données provenant de toute source supportée par Qlik.
Le dépôt temporaire de données dans un Qlik Open Lakehouse nécessite un compartiment Amazon S3 préconfiguré. Qlik Open Lakehouse est spécifiquement optimisé pour les sources de données haut volume diffusées en continu et compatible avec toutes les sources de données supportées par Qlik. Les données sont déposées temporairement au format CSV dans S3. La tâche de données de stockage convertit les données au format Iceberg et les copie dans des fichiers Parquet. La spécification Iceberg permet d'interroger les données à partir de n'importe quel moteur qui supporte nativement Trino SQL, par exemple Amazon Athena, Ahana ou Starburst Enterprise. Les tables peuvent éventuellement être mises en miroir (reflétées) dans Snowflake, où elles peuvent être interrogées sans dupliquer les données.
Le dépôt temporaire des données dans un Qlik Open Lakehouse est disponible dans les projets avec une connexion cible AWS Glue Data Catalog.
Préparatifs
-
Pour mettre des données en miroir dans Snowflake, vous devez commencer par créer un projet Qlik Open Lakehouse afin d'ingérer vos données et de les stocker au format de table ouverte Iceberg. Vous pouvez ajouter une tâche Refléter les données après la tâche de données de stockage. Pour effectuer des transformations de données, créez un projet Snowflake qui utilise le projet Qlik Open Lakehouse comme source. Pour plus d'informations, consultez Mise en miroir des données dans un entrepôt de données cloud.
-
Même si vous pouvez configurer les paramètres de connexion de la source et de la cible dans l'assistant de configuration des tâches, pour simplifier la procédure de configuration, il est recommandé de le faire avant de créer la tâche.
Création d'une tâche de dépôt temporaire dans un lac
Pour créer une tâche de dépôt temporaire dans un lac, procédez comme suit :
-
Créez un projet et sélectionnez Pipeline de données dans Cas d'utilisation.
-
Sélectionnez Qlik Open Lakehouse dans Plateforme de données et établissez une connexion de catalogue de données.
-
Configurez une zone de stockage dans Connexion de la cible du dépôt temporaire.
-
Cliquez sur Créer pour créer le projet.
Lorsque vous intégrez des données ou que vous créez une tâche de dépôt temporaire dans le projet, une tâche Dépôt temporaire dans un lac est créée au lieu d'une tâche Dépôt temporaire. Les tâches Dépôt temporaire dans un lac fonctionnent et se comportent essentiellement comme les tâches Dépôt temporaire, à l'exception du fait qu'elles déposent temporairement les données dans un stockage cloud. Pour plus d'informations, consultez Dépôt temporaire de données à partir de sources de données.
Tous les fichiers sont déposés temporairement au format CSV. Une fois que les données déposées temporairement ont été mises à jour, la tâche de stockage qui consomme la tâche de dépôt temporaire met à jour les tables externes.
Paramètres
Pour plus d'informations sur les paramètres de tâche, consultez Paramètres de dépôt temporaire dans un lac.
Limitations
-
Les données déposées temporairement ne sont pas partitionnées dans le compartiment en raison de la tâche de stockage qui s'exécute toutes les minutes. Par conséquent, la fréquence de partition des données ne peut pas être mise à jour dans les paramètres de la tâche.
-
Bien que le dépôt temporaire des données provenant de sources SaaS soit planifié, la tâche de stockage exécute des mini-lots toutes les minutes. Pour ce faire, il est nécessaire de disposer d'un cluster de lakehouse actif à un coût minimal.
-
Si la valeur d'une clé primaire change, les enregistrements contenant la clé d'origine sont marqués comme supprimés et la ligne contenant la valeur modifiée de la clé est marquée comme insérée.