Arquitectura de Qlik Open Lakehouse
Qlik Open Lakehouse ofrece una solución integral totalmente gestionada en Qlik Talend Cloud para ingerir, procesar y optimizar los datos en un lago basado en Iceberg. Esta solución ofrece un rendimiento de consulta de baja latencia y operaciones de datos eficientes a escala.
La arquitectura de Qlik Open Lakehouse combina comunicación segura, computación escalable y procesamiento eficaz de datos para ofrecer una experiencia de lago moderna. Qlik Open Lakehouse aprovecha los componentes nativos de AWS, incluidos EC2, S3 y Kinesis.
Componentes básicos
Las siguientes entidades son necesarias para crear un Qlik Open Lakehouse.
Data Movement gateway (CDC)
La pasarela Data Movement gateway se ejecuta en su entorno local o en la nube. Captura los cambios de los sistemas fuente, como RDBMS, SAP o mainframes, y envía los datos a una zona de destino/aterrizaje de Amazon S3.
Agente de integración de red (instancia EC2)
El agente de integración de red es una instancia de EC2 que facilita la comunicación segura entre los servicios de Qlik en la nube y los clústeres de lakehouse dentro de su entorno. El agente se implementa automáticamente como una instancia bajo demanda durante el proceso de integración de la red y está totalmente administrado por Qlik. Las nuevas versiones se implementan automáticamente en el momento de su lanzamiento.
Cuando la integración en la red funciona correctamente, se muestra un estado de Conectado en la vista de Clústeres de lakehouse en el Centro de actividades Administración. El estado cambia a Desconectado si surgen problemas de conexión.
Clúster de lakehouse (Grupo de autoescalado EC2)
El clúster de lakehouse es un grupo de instancias AWS EC2 responsables del procesamiento de datos. Las instancias del clúster coordinan y ejecutan las cargas de trabajo para procesar los datos entrantes de la zona de destino/aterrizaje y, tras el procesamiento, almacenan los datos en la ubicación de destino en formato Iceberg.
Durante la configuración de su integración de red, se crea automáticamente un clúster de lakehouse con una única instancia AWS Spot. Puede crear y administrar clústeres adicionales para satisfacer sus necesidades continuas en el lakehouse. Cuando configura un clúster, concede a Qlik permiso para crear, iniciar, detener, escalar o hacer retroceder los servidores para cumplir los requisitos de procesamiento de datos. Cada clúster está asociado a una única integración de red, aunque pueden funcionar varios clústeres dentro de la misma integración de red. Un único clúster puede ejecutar muchas tareas de lakehouse.
Una instancia AWS Spot utiliza la capacidad sobrante de Amazon EC2 a un coste inferior al de las instancias normales, pero puede ser interrumpida por AWS con poca antelación. De manera predeterminada, Qlik aprovisiona instancias Spot efímeras para el procesamiento de datos. Si no hay suficientes instancias Spot disponibles en el mercado de AWS Spot, Qlik utiliza automáticamente instancias bajo demanda para garantizar la continuidad. El sistema vuelve a las instancias Spot cuando están disponibles. La tecnología de clúster de lakehouse está diseñada para realizar una transición elegante entre las instancias puntuales (Spot) y bajo demanda (On-Demand), moviendo los trabajos entre nodos. Este proceso se produce automáticamente, sin necesidad de intervención manual. En los ajustes del clúster, puede configurar cuántas instancias Spot y Bajo demanda deben utilizarse en el clúster. La utilización de instancias puntuales Spot ayuda a reducir los costes informáticos continuos de su Qlik Open Lakehouse.
Además de definir el número de instancias Spot y On-Demand que va a utilizar, puede configurar la estrategia de escalado que mejor se adapte a la carga de trabajo y al presupuesto de su proyecto. Las siguientes estrategias de escalado pueden aplicarse a un clúster:
-
Bajo coste: ideal para entornos de desarrollo o control de calidad, y cargas de trabajo que no dependen de datos frescos en tiempo real. Qlik se esfuerza por mantener el coste lo más bajo posible, lo que se traduce en periodos ocasionales de alta latencia.
-
Baja latencia: diseñado para cargas de trabajo no críticas donde la actualidad de los datos en tiempo casi real es aceptable. Aunque esta estrategia persigue una baja latencia, pueden experimentarse breves picos.
-
Baja latencia constante: adecuado para entornos de producción con datos a gran escala que deben tener datos actualizados en tiempo real. Qlik escala proactivamente las instancias para garantizar una baja latencia, lo que puede suponer mayores costes.
-
Sin escalado: una buena opción para cargas de trabajo que procesan un volumen constante de datos. Seleccione esta opción para mantener un número estático de instancias sin escalado automático y con costes previsibles.
Transmisión Kinesis (Coordinación de la carga de trabajo)
Qlik requiere un flujo de Kinesis para cotejar y retransmitir el estado de cada servidor del clúster de lakehouse. Los servidores informan acerca del estado de las tareas y de métricas operativas como la CPU y la memoria directamente a Kinesis, ya que los servidores no se comunican entre sí. Cada servidor sondea los datos de la transmisión Kinesis para descubrir información sobre los demás servidores del clúster. Este intercambio de información permite sincronizar el trabajo.
Depósitos de Amazon S3
Los depósitos de Amazon S3 se utilizan del siguiente modo:
-
Depósito de aterrizaje de datos: los datos CDC sin procesar aterrizan en un depósito S3 antes de su transformación.
-
Depósito de configuración: almacena los metadatos y las configuraciones utilizadas por el sistema de lakehouse.
-
Almacenamiento en tablas Iceberg: los datos se almacenan y optimizan en tablas con formato Iceberg.
Flujo de alto nivel
Configuración inicial
-
VPC y aprovisionamiento de infraestructura: configure una VPC en su cuenta de AWS junto con subredes, depósitos S3, flujos de Kinesis y roles IAM siguiendo las instrucciones de la documentación de Qlik.
-
Configuración de la integración de red: el administrador del espacio empresarial inquilino crea una integración de red en Qlik Talend Cloud utilizando los detalles de infraestructura previamente aprovisionados.
-
Implementación de los componentes de Qlik: Qlik aprovisiona automáticamente la pasarela del plano de datos y un clúster de lakehouse dentro de su VPC.
-
Establecer comunicación: la pasarela del plano de datos establece de forma segura la comunicación con Qlik Talend Cloud.
-
Implementación de la pasarela: implemente una pasarela Data Movement gateway (CDC), ya sea en sus propias instalaciones locales o en su entorno en la nube, incluida la VPC del plano de datos.
-
Listo para funcionar: puede crear y administrar proyectos y tareas de Qlik Open Lakehouse en función de sus permisos de acceso una vez completada la configuración.
Crear un proyecto de Qlik Open Lakehouse
Están disponibles los siguientes tipos de tareas:
Tarea de ubicación de destino o aterrizaje
-
Configuración de la fuente: la pasarela Data Movement gateway está configurada para capturar los cambios de los sistemas fuente, incluidos RDBMS, SAP, mainframes, etc.
-
Aterrizaje de datos: la tarea CDC envía continuamente datos de cambios sin procesar al depósito de aterrizaje S3 designado en su cuenta de AWS.
Tarea de almacenamiento de datos
-
Registre una conexión de catálogo Iceberg, por ejemplo, AWS Glue Data Catalog.
-
Defina una tarea de almacenamiento en Qlik Talend Cloud.
-
Qlik Talend Cloud envía las definiciones de las tareas a la pasarela del plano de datos.
-
La pasarela del plano de datos reenvía de forma segura las instrucciones de la tarea al clúster de lakehouse de Qlik.
-
El clúster lee continuamente datos sin procesar de un depósito de aterrizaje en S3, los procesa y escribe el resultado en tablas Iceberg en S3.
-
El clúster de lakehouse aumenta o disminuye automáticamente su escala en función de la carga, según las preferencias predefinidas en la configuración del clúster de lakehouse.
-
Los datos de monitorización se envían a Qlik Talend Cloud, y los registros y métricas se reenvían a Qlik.
Tarea de reflejo de datos
Puede crear tablas Iceberg externas para poder consultar los datos almacenados en su lago de datos desde Snowflake sin necesidad de duplicarlos. Esto le permite utilizar el motor de análisis Snowflake sobre datos administrados por Iceberg almacenados en formatos como Parquet en S3. Al hacer referencia a tablas externas en lugar de duplicar los datos en Snowflake, se reducen los costes de almacenamiento, se mantiene una única fuente de verdad y se garantiza la coherencia entre los entornos de lakehouse y warehouse.
Comunicación entre su integración de red y Qlik Talend Cloud
La integración de red establece una conexión segura saliente (HTTPS) a Qlik Talend Cloud. Una vez aceptada con éxito, la conexión se convierte en un conector web seguro (WSS). Se establece un canal de comunicación adicional y específico (WSS) entre la integración de red y Qlik Talend Cloud para recibir órdenes y controles de tareas específicas del lakehouse. Periódicamente, la integración de red establece una conexión segura (HTTPS) con Qlik Talend Cloud para recibir y enviar eventos relacionados con los datos. Las métricas y los registros se envían a Qlik desde los clústeres de lakehouse.
Se toman las siguientes medidas para garantizar la seguridad de sus datos:
-
Todas las conexiones desde su red de integración a Qlik Talend Cloud son salientes. No se requiere acceso de entrada.
-
Los metadatos, los comandos y las solicitudes de control se transmiten utilizando canales de comunicación asegurados con HTTPS, lo que crea una capa adicional de encriptación entre la integración de red y Qlik Talend Cloud.
-
Todos los flujos de datos entre los recursos de su propiedad. Los datos nunca se envían a Qlik Talend Cloud. Los metadatos, como los nombres de tablas y columnas, por ejemplo, se envían a Qlik Talend Cloud para permitir la definición de tareas.
-
Los datos se anonimizan antes de enviarlos a Qlik. Qlik utiliza datos anonimizados para prestarle asistencia de forma proactiva en caso de que los registros o las métricas indiquen un problema.