Flujo de datos de Apache Kafka

Conéctese a su clúster de Apache Kafka para utilizarlo como fuente de datos de streaming en sus proyectos de Qlik Open Lakehouse. Las conexiones de Kafka solo se pueden usar con la tarea de destino de streaming y la tarea de transformación de streaming.

Qlik Open Lakehouse permite a las organizaciones crear procesos en tiempo real y listos para análisis en una arquitectura abierta y escalable. Al integrar Apache Kafka como fuente de streaming, Qlik admite la ingesta continua de datos de eventos de gran volumen en tablas de Apache Iceberg. Esta combinación ofrece disponibilidad de datos de baja latencia y una sólida evolución del esquema, lo que permite a los equipos operacionalizar información en tiempo real y acelerar las transformaciones posteriores.

Las tareas de aterrizaje de streaming y las tareas de transformación de streaming permiten que los temas de Kafka sean componentes centrales de sus proyectos de Qlik Open Lakehouse. A medida que los datos fluyen hacia Iceberg, están rápidamente accesibles para cargas de trabajo de análisis, IA y aprendizaje automático, lo que respalda la toma de decisiones sensible al tiempo y las prácticas escalables de ingeniería de datos. El resultado es una capa de datos unificada y optimizada para consultas que refuerza la fiabilidad y el rendimiento de sus arquitecturas de streaming. Para analizar datos de Kafka utilizando el motor de consultas de su almacén de datos en la nube, aterrice y almacene los datos en un Qlik Open Lakehouse y replique los datos en su almacén utilizando una tarea de replicación de datos.

Requisitos previos

Se aplican los siguientes requisitos al crear y usar un origen de streaming de Kafka:

Una integración de red que tenga conectividad de red con los servidores de brokers.
Asegúrese de que el clúster de Kafka al que desea conectarse esté accesible desde la VPC donde se encuentra el clúster de Lakehouse que ejecutará la tarea de destino.
Una conexión de origen de streaming de Kafka requiere una plataforma de destino de Qlik Open Lakehouse.

Configurar las propiedades de conexión de Kafka

Para configurar su conexión de Kafka, haga lo siguiente:

En Conexiones, haga clic en Crear conexión.
Seleccione el Espacio donde desea crear la conexión o elija Crear nuevo espacio de datos.
Seleccione Kafka de la lista de nombres de Conectores o utilice el cuadro Buscar. Asegúrese de que el Tipo sea Origen y la Categoría sea Streaming.
Configure las siguientes propiedades:

Fuente de datos

Establezca las propiedades de conexión de su fuente de datos de la siguiente manera:

Seleccione su integración de red de la lista.
En servidores Broker, introduzca un único host utilizando el formato hostname:port, por ejemplo, host1:9092.

Para introducir una lista de hosts, utilice el formato: hostname:port, hostname:port, por ejemplo, host1:9092,host2:9092.

Detalles de autenticación

Seleccione su método de autenticación de la lista:
- SASL/SCRAM-SHA-512: esta opción autentica con un nombre de usuario y contraseña utilizando el mecanismo SCRAM-SHA-512. Esta es la variante SCRAM más segura y requiere que las credenciales SCRAM-SHA-512 coincidentes estén configuradas en el clúster de Kafka.

Para usar un método de autenticación alternativo que no esté en la lista, póngase en contacto con el soporte de Qlik.

SASL/SCRAM-SHA-256

Indique el nombre de usuario y la contraseña de su conexión.

TLS

Opcionalmente, puede añadir una autoridad de certificación (CA).

Para añadir una CA, seleccione Usar CA de confianza personalizada.
En Ruta de CA, introduzca la ruta del archivo CA para subir a Qlik Cloud. El archivo CA está disponible para los clústeres que ejecutan las tareas.

Propiedades adicionales de Kafka

Las propiedades adicionales de Kafka son opcionales.

Añada una Clave y un Valor para las etiquetas que desee incluir y que le ayuden a identificar, organizar y administrar los recursos.

Conexión del registro de esquemas

El servidor del registro de esquemas es opcional.

Para conectarse a un registro de esquemas, haga clic en Configurar un servidor de registro de esquemas y configure los ajustes:

URI del registro de esquemas: indique el URI en el formato http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081.
Nombre de usuario: indique el nombre de usuario para la conexión del servidor.
Contraseña: indique la contraseña para la conexión del servidor.

TLS de conexión del registro de esquemas

Si elige configurar un servidor de registro de esquemas, tiene la opción de añadir una Autoridad de certificación (CA).

Para añadir una CA, seleccione Usar CA de confianza personalizada.
En Ruta de CA, indique la ruta del archivo CA que se debe cargar en Qlik Cloud. El archivo CA está disponible para los clústeres que ejecutan las tareas.

Crear la conexión

Cuando haya configurado su método de seguridad, complete los siguientes pasos para crear su conexión:

En Nombre, escriba el nombre que desee mostrar para la conexión, por ejemplo, My Kafka Streaming Source connection.
Haga clic en Probar conexión para validar las credenciales.
Haga clic en Crear.

Asignar temas a conjuntos de datos

Se admiten los siguientes casos de uso al ingerir desde un origen de Kafka:

Tema	Conjunto de datos de destino	Caso de uso	Correspondencia
Uno	Uno	Cada tema se carga en un conjunto de datos de destino.	Compatible con la asociación de conjuntos de datos de la tarea de destino de streaming.
Uno	Muchos	Duplicar un tema en varios conjuntos de datos.	Compatible con el uso de Añadir a destino varias veces.
Uno	Muchos	Dividir un evento en varios destinos. Por ejemplo, un evento contiene orders y order lines que se dividen en varios conjuntos de datos.	Compatible con la tarea de transformación de streaming. Duplique un conjunto de datos y seleccione diferentes campos en cada conjunto de datos; o utilice el procesador Bifurcación y el procesador Seleccionar columnas dentro del flujo de transformación.
Uno	Muchos	Divida un tema en varios conjuntos de datos según valores de columna específicos.	Compatible con la tarea de transformación de streaming. Configure un procesador de filtro para cada valor de columna utilizado para dividir el tema en diferentes conjuntos de datos. Para gestionar los registros no coincidentes, configure un procesador de filtro adicional que genere datos no coincidentes en un conjunto de datos independiente.
Muchos	Uno	Ingiera todos los temas que cumplan un criterio específico en el mismo conjunto de datos de destino, o temas específicos en el mismo conjunto de datos.	Compatible con la asignación de conjuntos de datos de la tarea de aterrizaje de streaming. Si se cargan varios temas en un único conjunto de datos y una de las tareas de carga de temas falla, el conjunto de datos genera errores y la carga de otros temas se interrumpe.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios