Conexión con flujos de datos o data streams

Se admiten los siguientes servicios de streaming en proyectos de Qlik Open Lakehouse. Los datos de eventos se ingieren continuamente para garantizar la disponibilidad en tiempo cuasi real para la integración de datos, análisis e IA posteriores, lo que permite canalizaciones de baja latencia que reflejan la actividad operativa más actual.

Servicios de streaming como Apache Kafka y Amazon Kinesis proporcionan canalizaciones duraderas y de alto rendimiento para capturar eventos operativos a medida que ocurren. A diferencia de las fuentes basadas en archivos que dependen de la ingesta por lotes, las fuentes de streaming entregan datos continuamente a medida que se producen los eventos, lo que permite el procesamiento casi en tiempo real sin esperar a que se generen o programen los archivos. Los productores publican mensajes estructurados o semiestructurados que conservan su esquema y admiten la partición. Todas las actualizaciones y eliminaciones para el mismo registro deben usar la misma clave de partición. Kafka y Kinesis garantizan el orden solo dentro de una única partición o fragmento, no en todo el tema o stream, por lo que usar una clave de partición consistente asegura que los cambios para un registro dado se procesen en la secuencia correcta. Qlik también admite Amazon S3 como fuente de streaming para la ingesta continua de datos de eventos.

Ingesta de streaming frente a ingesta por lotes

La diferencia entre las fuentes de datos de streaming y por lotes es la siguiente:

Con ambas fuentes, los eventos se ingieren de manera eficiente cada minuto, lo que permite el procesamiento de baja latencia y el análisis en tiempo prácticamente real.
Con las fuentes que no son de streaming, primero se realiza una Carga completa de los datos existentes y luego se ingieren los cambios. También puede recargar los datos de la Carga completa desde la fuente.
Con las fuentes de streaming, no hay una distinción clara entre la carga inicial y los eventos posteriores. Qlik puede gestionar la retención y también admite particiones.

Las tareas de streaming se facturan en función del uso de computación (vCores x tiempo de ejecución) en lugar del volumen de datos.

En un proyecto de Qlik Open Lakehouse, las fuentes de streaming solo se pueden usar con la tarea de destino de streaming y la tarea de transformación de streaming:

Los datos de streaming se ingieren mediante una tarea de destino de streaming y, en lugar de procesar archivos discretos, la tarea de destino de streaming lee los eventos a medida que llegan, deposita los datos en Amazon S3 y persiste los eventos como archivos Avro. Este enfoque preserva la evolución del esquema, admite tipos de datos complejos como las estructuras y proporciona un almacenamiento eficiente con un rendimiento de consulta optimizado, al tiempo que mantiene un modelo de ingesta continua.
Cuando incorpora datos de una fuente de streaming, se añade automáticamente una tarea de transformación de streaming para cada conjunto de datos que se almacenará en formato Iceberg. Opcionalmente, la tarea de transformación de streaming se puede utilizar para estandarizar estructuras, enriquecer cargas útiles de eventos o alinear datos con modelos de consumo posteriores.
Una tarea de duplicación de datos permite que los conjuntos de datos de fuentes de streaming se dupliquen en almacenes de datos en la nube, lo que permite a los sistemas posteriores consumir eventos de streaming sin duplicar datos.Para obtener más información, consulte Reflejar datos en un almacén de datos en la nube.

Limitaciones

Las siguientes limitaciones se aplican a todas las fuentes de datos:

Si sus archivos son de diferentes tipos, lo que puede ocurrir cuando provienen de múltiples fuentes o versiones, la tarea de transformación creada utilizando un único archivo de muestra (por ejemplo, durante la incorporación) no tiene en cuenta automáticamente esas diferencias.
Si cambia los tipos de datos en la tarea de destino, por ejemplo porque necesita aplicar hash a los datos, asegúrese de que los tipos de datos de transformación coincidan con los nuevos tipos de datos.

Fuentes compatibles

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios