Aterrizar datos en un lakehouse
Puede aterrizar datos en un lakehouse de Snowflake. Se trata de transferir los datos de la fuente de datos al almacenamiento de archivos en la nube que gestiona la plataforma de datos.
El aterrizaje de los datos en un lakehouse no implica un uso costoso del almacén durante el aterrizaje de los datos, en comparación con el aterrizaje habitual en un almacén de datos. Esto le permite aterrizar en alta frecuencia y consumir en menor frecuencia en función de sus necesidades. También podrá compartir datos con otras plataformas más fácilmente. Puede sincronizar las tablas Iceberg con Snowflake Open Catalog para permitir la interoperabilidad con otras herramientas, como Apache Spark.
El aterrizaje de los datos solo está disponible en proyectos con Snowflake como plataforma de datos.
Preparativos
-
Si desea sincronizar las tablas Iceberg con Snowflake Open Catalog, debe configurar una integración de catálogo en su instancia de Snowflake. El nombre de esta integración es necesario al crear la tarea. Para más información, consulte CREAR INTEGRACIÓN DE CATÁLOGOS (Snowflake Open Catalog).
-
Aunque puede configurar sus ajustes de conexión de origen y destino en el asistente de configuración de tareas, para simplificar el procedimiento de configuración, se recomienda hacerlo antes de crear la tarea.
Crear una tarea de aterrizaje en un lago de datos
-
Cree un proyecto y seleccione Canalización de datos en Caso de uso.
-
Seleccione Snowflake en Plataforma de datos y establezca una conexión con el almacén de datos.
Para más información sobre la configuración del destino en Snowflake, consulte Snowflake.
-
Seleccione Almacenamiento en la nube en Destino de aterrizaje.
-
Establezca un área de preparación en la Conexión con el almacenamiento en la nube.
Puede utilizar los siguientes tipos de conexiones:
-
Indique el nombre de la Integración del almacenamiento en Snowflake. Para más información, consulte la documentación de Snowflake correspondiente al área de almacenamiento seleccionada.
-
Seleccione qué tipo de tabla crear por defecto para las tareas de Almacenamiento, Transformación y Data mart. Este ajuste podrá modificarse posteriormente en los ajustes del proyecto. También puede establecer el tipo de tabla para cada tarea individual del proyecto.
-
Tablas de Snowflake
-
Tablas Iceberg gestionadas por Snowflake
En este caso, debe establecer el nombre por defecto del volumen externo en Volumen externo predeterminado.
Nota informativaLas tablas Iceberg heredarán la política de serialización de almacenamiento establecida a nivel de esquema, base de datos o cuenta. Esto puede afectar a la interoperabilidad con otros productos que lean tablas directamente a través de Snowflake.
-
-
Haga clic en Crear para crear el proyecto.
Al embarcar datos o crear una tarea de aterrizaje en el proyecto, se crea una tarea de Aterrizaje en un lago en lugar de una simple tarea de Aterrizaje. Las tareas de Aterrizaje en un lago operan y se comportan mayoritariamente como las tareas de Aterrizaje, excepto por el hecho de que transfieren los datos al almacenamiento en la nube. Para más información, vea Transferir datos desde fuentes de datos.
Todos los archivos se aterrizan en formato CSV. La tarea de almacenamiento que consume la tarea de aterrizaje se asegurará de que las tablas externas se actualizan después de que se actualicen los datos de aterrizaje.
Configuración
Para más información sobre la configuración de tareas, consulte Ajustes del aterrizaje en un lago de datos.
Limitaciones
-
No es posible modificar la ruta de una tabla una vez creada. Esto incluye cambiar el nombre de la tabla.
-
Si se utilizan tablas de destino como tablas externas, se desactivan las vistas en vivo de almacenamiento.
-
Al sincronizar tablas con Snowflake Open Catalog, se sincronizan las tablas del esquema interno y no las vistas generadas en el esquema de la tarea de datos. Esta limitación puede eliminarse en el futuro. Para más información sobre las tablas de esquema interno, consulte Tablas.