Enviar datos de streaming a Qlik Open Lakehouse
Los datos aterrizan en Amazon S3, listos para que la tarea de Streaming Transform los convierta en el formato de tabla abierta Iceberg. Puede aterrizar datos de cualquier fuente de streaming compatible con Qlik.
El aterrizaje de datos de streaming en Qlik Open Lakehouse requiere un depósito preconfigurado de Amazon S3. Qlik Open Lakehouse está optimizado específicamente para fuentes de datos de alto volumen y es compatible con todas las fuentes de datos de streaming compatibles con Qlik. Para obtener más información sobre las fuentes de streaming compatibles, consulte Conexión a flujos de datos.
Los datos sin procesar llegan en formato Avro a S3 y la tarea de transformación de streaming convierte los datos a formato Iceberg. La especificación de Iceberg permite consultar datos desde cualquier motor que admita Trino SQL de forma nativa, por ejemplo Amazon Athena, Ahana o Starburst Enterprise. Opcionalmente, las tablas pueden reflejarse en su almacén de datos en la nube, donde pueden consultarse sin duplicar datos.
El aterrizaje de datos en una dirección de Qlik Open Lakehouse está disponible en proyectos con una conexión de destino del Catálogo de datos AWS Glue.
Preparativos
-
Se requiere un clúster de lakehouse de almacenamiento para ejecutar la ingesta y debe configurarse antes de crear su proyecto.
-
Aunque puede configurar los ajustes de conexión de origen y destino en el asistente de configuración, para simplificar el procedimiento de configuración, se recomienda hacerlo antes de crear la tarea.
-
Para reflejar datos en su almacén de datos en la nube, primero debe crear un proyecto de Qlik Open Lakehouse para ingerir sus datos y almacenarlos utilizando el formato de tabla abierta Iceberg. Puede añadir una tarea de reflejo de datos después de la tarea de transformación de streaming. Para más información, vea Reflejar datos en un almacén de datos en la nube.
Crear una tarea de aterrizaje de streaming
Para crear una tarea de aterrizaje de streaming, haga lo siguiente para crear primero el proyecto:
-
Cree un proyecto y seleccione Canalización de datos en Caso de uso.
-
Seleccione Qlik Open Lakehouse en Plataforma de datos y establezca una conexión con el catálogo de datos.
-
Establezca un área de almacenamiento en Conexión de aterrizaje en destino.
-
Seleccione el clúster de lakehouse de almacenamiento para realizar la ingesta y optimización de los datos.
-
Haga clic en Crear para crear el proyecto.
Cuando incorpora datos o crea una tarea de aterrizaje en el proyecto, se crea una Tarea de aterrizaje de streaming en lugar de una Tarea de aterrizaje. Las tareas de aterrizaje de streaming funcionan y se comportan de forma similar a una Tarea de aterrizaje, excepto que aterrizan datos en el almacenamiento en la nube desde fuentes de streaming. Para más información, vea Conexión con flujos de datos o data streams.
Todos los archivos se aterrizan en formato Avro. Una vez actualizados los datos de aterrizaje, la Tarea de transformación de streaming consume los datos de aterrizaje y actualiza las tablas externas.
Configuración
Para más información sobre la configuración de tareas, consulte Ajustes de aterrizaje en lago de datos mediante streaming