Dépôt temporaire de données dans un lakehouse
Vous pouvez déposer temporairement des données dans un data lakehouse Snowflake. Cela implique le transfert des données de la source de données vers un stockage de fichiers cloud géré par la plateforme de données.
Le dépôt temporaire de données dans un lakehouse n'implique pas d'utilisation coûteuse de l'entrepôt lors du dépôt temporaire des données, contrairement au dépôt temporaire habituel dans un entrepôt de données. Cela vous permet d'effectuer des dépôts temporaires à une fréquence élevée et de consommer à une moindre fréquence en fonction des besoins. Vous pourrez également peut-être partager plus facilement des données avec d'autres plateformes. Vous pouvez synchroniser les tables Iceberg avec Snowflake Open Catalog pour permettre l'interopérabilité avec d'autres outils tels que Apache Spark.
Le dépôt temporaire de données dans un lakehouse n'est disponible que dans les projets dont la plateforme de données est Snowflake.
Préparations
-
Si vous souhaitez synchroniser des tables Iceberg avec Snowflake Open Catalog, vous devez configurer une intégration de catalogue dans votre instance Snowflake. Le nom de cette intégration est nécessaire lors de la création de la tâche. Pour plus d'informations, consultez CRÉER UNE INTÉGRATION DE CATALOGUE (Snowflake Open Catalog).
-
Même si vous pouvez configurer les paramètres de connexion de la source et de la cible dans l'assistant de configuration de tâche, pour simplifier la procédure de configuration, il est recommandé de le faire avant de créer la tâche.
Création d'une tâche de dépôt temporaire dans un lac
-
Créez un projet et sélectionnez Pipeline de données dans Cas d'utilisation.
-
Sélectionnez Snowflake dans Plateforme de données et configurez une connexion à l'entrepôt de données.
Pour plus d'informations sur les paramètres de la cible Snowflake, consultez Snowflake.
-
Sélectionnez Stockage Cloud dans Cible du dépôt temporaire.
-
Configurez une zone intermédiaire dans Connexion au stockage Cloud.
Vous pouvez utiliser les types de connexions suivants :
-
Définissez le nom de l'Intégration du stockage Snowflake. Pour plus d'informations, consultez la documentation Snowflake relative à la zone de stockage que vous avez sélectionnée.
-
Sélectionnez le type de table à créer par défaut pour les tâches Storage, Transformer et Mini-data warehouse. Ce paramètre peut être modifié ultérieurement dans les paramètres du projet. Vous pouvez également définir le type de table pour chaque tâche individuelle du projet.
-
Tables Snowflake
-
Tables Iceberg gérées par Snowflake
Dans ce cas, vous devez définir le nom par défaut du volume externe dans Volume externe par défaut.
Note InformationsLes tables Iceberg hériteront de la politique de sérialisation du stockage définie au niveau du schéma, de la base de données ou du compte. Cela peut affecter l'interopérabilité avec d'autres produits qui lisent les tables directement via Snowflake.
-
-
Cliquez sur Create pour créer le projet.
Lorsque vous intégrez des données ou que vous créez une tâche de dépôt temporaire dans le projet, une tâche Dépôt temporaire dans un lac est créée au lieu d'une tâche Dépôt temporaire. Les tâches Dépôt temporaire dans un lac fonctionnent et se comportent essentiellement comme les tâches Dépôt temporaire, à l'exception du fait qu'elles déposent temporairement les données dans un stockage cloud. Pour plus d'informations, consultez Dépôt temporaire de données à partir de sources de données.
Tous les fichiers sont temporairement déposés au format CSV. La tâche de stockage qui consomme la tâche de dépôt temporaire veillera à ce que les tables externes soient mises à jour après la mise à jour des données en dépôt temporaire.
Paramètres
Pour plus d'informations sur les paramètres de tâche, consultez Paramètres de dépôt temporaire dans un lac.
Limitations
-
Il n'est pas possible de modifier le chemin d'accès à une table après sa création. Cela inclut le renommage de la table.
-
Si des tables de dépôt temporaire sont utilisées comme tables externes, les vues en direct du stockage sont désactivées.
-
Lors de la synchronisation des tables avec Snowflake Open Catalog, les tables de schéma interne sont synchronisées, et non les vues générées dans le schéma de la tâche de données. Cette limitation pourrait être levée à l'avenir. Pour plus d'informations sur les tables de schéma interne, consultez Tables.