Enviar datos de streaming a Qlik Open Lakehouse

Puede aterrizar datos de una fuente de streaming en Amazon S3, listos para que la tarea de Streaming Transform los convierta en el formato de tabla abierta Iceberg.

El aterrizaje de datos de streaming en Qlik Open Lakehouse requiere un depósito preconfigurado de Amazon S3. Qlik Open Lakehouse está optimizado específicamente para fuentes de datos de alto volumen y es compatible con todas las fuentes de datos de streaming compatibles con Qlik. Para obtener más información sobre las fuentes de streaming compatibles, consulte Conexión con flujos de datos o data streams.

Los datos sin procesar llegan en formato Avro a S3 y la tarea de transformación de streaming convierte los datos a formato Iceberg. La especificación de Iceberg permite consultar datos desde cualquier motor que admita Trino SQL de forma nativa, por ejemplo Amazon Athena, Ahana o Starburst Enterprise. Opcionalmente, las tablas pueden reflejarse en su almacén de datos en la nube, donde pueden consultarse sin duplicar datos.

Preparativos

Asegúrese de que ha configurado Qlik Open Lakehouse. Esto incluye la creación de una integración de red, un clúster de lakehouse y conexiones de origen y destino. Para más información, vea Configurar Qlik Open Lakehouse.
Para reflejar datos en su almacén de datos en la nube, primero debe crear un proyecto de Qlik Open Lakehouse para ingerir sus datos y almacenarlos utilizando el formato de tabla abierta Iceberg. Puede añadir una tarea de reflejo de datos después de la tarea de transformación de streaming. Para más información, vea Reflejar datos en un almacén de datos en la nube.

Crear una tarea de aterrizaje de streaming

Para crear una tarea de aterrizaje de streaming, haga lo siguiente para crear primero el proyecto:

Cree un proyecto y seleccione Canalización de datos en Caso de uso.
Seleccione Qlik Open Lakehouse en Plataforma de datos y establezca una conexión con el catálogo de datos.
Establezca un área de almacenamiento en Conexión de aterrizaje en destino.
Haga clic en Crear para crear el proyecto.

Cuando incorpora datos o crea una tarea de aterrizaje en el proyecto, se crea una Tarea de aterrizaje de streaming en lugar de una Tarea de aterrizaje. Las tareas de aterrizaje de streaming funcionan y se comportan de forma similar a una Tarea de aterrizaje, excepto que aterrizan datos en el almacenamiento en la nube desde fuentes de streaming. Para más información, vea Conexión con flujos de datos o data streams.

Todos los archivos se aterrizan en formato Avro. Una vez actualizados los datos de aterrizaje, la Tarea de transformación de streaming consume los datos de aterrizaje y actualiza las tablas externas.

Ver la información de la tarea

Haga clic en en la barra de menú para ver la información de la tarea, como:

Propietario
Espacio
Plataforma de datos
ID de proyecto
ID del tiempo de ejecución de la tarea de datos

Operaciones

Las siguientes operaciones están disponibles en una tarea de aterrizaje de streaming:

Descartar una columna

Seleccione la columna y haga clic en Eliminar.

Esto añadirá una regla de transformación que elimina la columna de los datos recién cargados después de que la tarea se prepare y ejecute. Puede restaurar la columna para nuevos registros eliminando la regla de transformación.
Aplicar hash a una columna, por ejemplo, para enmascarar información confidencial.

Seleccione Hash en la columna.

Esto generará un hash SHA-256 de la columna de entrada después de concatenarla con una cadena de sal de hash. Se establece la cadena de sal de hash en la configuración del proyecto en Metadatos > Hash. Esta configuración solo está disponible en proyectos de Qlik Open Lakehouse. Para más información, vea Metadatos.

El tipo de datos se cambia a Cadena cuando se aplica hash a una columna. Si también desea mantener los datos sin hash para usuarios privilegiados, realice el hash más tarde en una tarea de Transformación.
Filtrar datos

Para más información, vea Filtrar un conjunto de datos.
Cambiar el nombre de un conjunto de datos

Haga clic en sobre el conjunto de datos y seleccione Renombrar.

Borrar una tarea

Puede eliminar la tarea de datos si no se está ejecutando y no hay dependencias de tareas posteriores en el mismo proyecto.

En la vista Proyecto de canalización del proyecto, haga clic en en una tarea y seleccione Eliminar.

Los artefactos (tablas y vistas) creados por la tarea también se eliminarán, a menos que elija conservarlos.

Tenga en cuenta que los artefactos que conserve ya no serán actualizados por la tarea.

Configuración

Para más información sobre la configuración de tareas, consulte Ajustes de aterrizaje en lago de datos mediante streaming

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios