Enviar datos de destino a Qlik Open Lakehouse

Los datos aterrizan en Amazon S3, listos para que la tarea de almacenamiento de datos los convierta en el formato de tabla abierta Iceberg. Puede aterrizar datos de cualquier fuente compatible con Qlik.

El aterrizaje de datos en Qlik Open Lakehouse requiere un depósito preconfigurado de Amazon S3. Qlik Open Lakehouse está optimizado específicamente para fuentes de datos de alto volumen y transmisión (streaming) de datos, y es compatible con todas las fuentes de datos admitidas en Qlik. Los datos aterrizan en formato CSV en S3. La tarea de almacenamiento de datos convierte los datos al formato Iceberg y los copia en archivos Parquet. La especificación de Iceberg permite consultar datos desde cualquier motor que admita Trino SQL de forma nativa, por ejemplo Amazon Athena, Ahana o Starburst Enterprise. Opcionalmente, las tablas pueden reflejarse en Redshift o Snowflake, donde pueden consultarse sin tener que duplicar los datos.

El aterrizaje de datos en una dirección de Qlik Open Lakehouse está disponible en proyectos con una conexión de destino del Catálogo de datos AWS Glue.

Preparativos

Para reflejar los datos en Redshift o Snowflake, primero debe crear un proyecto de Qlik Open Lakehouse para ingerir sus datos y almacenarlos utilizando el formato de tabla abierta Iceberg. Puede añadir una tarea de reflejo de datos después de la tarea de almacenamiento de datos. Para realizar transformaciones de datos, cree un proyecto de Redshift o Snowflake que utilice como fuente el proyecto Qlik Open Lakehouse. Para más información, vea Reflejar datos en un almacén de datos en la nube.
Aunque puede configurar sus ajustes de conexión de origen y destino en el asistente de configuración de tareas, para simplificar el procedimiento de configuración, se recomienda hacerlo antes de crear la tarea.

Crear una tarea de aterrizaje en un lago de datos

Para crear una tarea de aterrizaje, haga lo siguiente:

Cree un proyecto y seleccione Canalización de datos en Caso de uso.
Seleccione Qlik Open Lakehouse en Plataforma de datos y establezca una conexión con el catálogo de datos.
Establezca un área de almacenamiento en Conexión de aterrizaje en destino.
Haga clic en Crear para crear el proyecto.

Al embarcar datos o crear una tarea de aterrizaje en el proyecto, se crea una tarea de Aterrizaje en un lago en lugar de una simple tarea de Aterrizaje. Las tareas de Aterrizaje en un lago operan y se comportan mayoritariamente como las tareas de Aterrizaje, excepto por el hecho de que transfieren los datos al almacenamiento en la nube. Para más información, vea Transferir datos desde fuentes de datos.

Todos los archivos se aterrizan en formato CSV. Una vez actualizados los datos de aterrizaje, la tarea de almacenamiento que consume la tarea de ubicación de destino o aterrizaje actualiza las tablas externas.

Configuración

Para más información sobre la configuración de tareas, consulte Opciones de configuración del aterrizaje en un lago de datos.

Limitaciones

Los datos de aterrizaje no se particionan en el depósito debido a que la tarea de almacenamiento se ejecuta cada minuto. Por lo tanto, la frecuencia de la partición de datos no puede actualizarse en los ajustes de la tarea.
Aunque el aterrizaje de los datos procedentes de fuentes SaaS está programado, la tarea de almacenamiento ejecuta minilotes cada minuto. Para ello se necesita un grupo de clústeres de lakehouse activos con un coste mínimo.
Si cambia el valor de una clave principal, los registros con la clave original se marcan como Eliminados, y la fila que contiene el valor de clave modificado se marca como Insertar.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios