Paso 2: crear un clúster de lakehouse
Un clúster de lakehouse define el entorno informático para ejecutar las tareas de almacenamiento en Qlik Open Lakehouse. Cada clúster especifica ajustes que incluyen el número de instancias, el tipo de máquina y la estrategia de escalado.
Cuando crea una integración de red para un proyecto de canalización de datos en Qlik Open Lakehouse, se crea automáticamente un clúster con una única instancia de AWS Spot. Sin embargo, puede crear clústeres adicionales en los centros de actividades Administración y Integración de datos.
Los clústeres de lakehouse vinculan las canalizaciones de datos a un grupo de instancias de AWS, lo que le permite optimizar las cargas de trabajo asignando los trabajos críticos a clústeres de alto rendimiento y las cargas de trabajo no críticas a máquinas rentables.
Aunque un clúster está asociado a una única VPC, pueden ejecutarse varios clústeres dentro de la misma VPC. Además, un único clúster puede ejecutar múltiples trabajos. Resulta útil definir los requisitos informáticos de sus cargas de trabajo antes de crear un clúster de lakehouse. La configuración del clúster, incluida la estrategia de escalado, puede modificarse según sea necesario, aunque algunos cambios pueden requerir el despliegue del clúster. Para más información sobre cómo editar la configuración del clúster, consulte Administrar clústeres de lakehouse
Cuando se crea un clúster de lakehouse, se especifica el número de instancias Spot y On-Demand que aprovisiona Qlik. Para más información sobre cómo Qlik utiliza las instancias Spot y On-Demand en su clúster, consulte Clúster de lakehouse (Grupo de autoescalado EC2)
Capacidades del clúster
Cuando crea un clúster, debe elegir el tipo de carga de trabajo que ejecutará el clúster: streaming, CDC o mixto. En general, la mejor práctica es usar clústeres separados, para fuentes de streaming y CDC (base de datos y SaaS). Esto garantizará unos cargos de facturación más precisos y reducidos. Sin embargo, hay casos de uso en los que una carga de trabajo mixta es apropiada y puede compartir un clúster:
-
Para las pruebas o la evaluación de proyectos a pequeña escala con volúmenes de facturación insignificantes.
-
Si el uso sin streaming es mínimo y no desea configurar ni mantener un clúster independiente.
Requisitos previos
Para crear un clúster de lakehouse, necesita:
-
Una integración de red dentro del espacio empresarial inquilino actual.
-
Permiso de acceso a la integración de red.
Crear un clúster de lakehouse
Para añadir un clúster al espacio empresarial inquilino actual, haga lo siguiente:
-
En el centro de actividades Administración, haga clic en Clústeres de lakehouse. Seleccione la pestaña Clústeres de lakehouse, haga clic en Crear nuevo, luego en Clúster de Lakehouse y configúrelo:
-
Nombre: indique el nombre del clúster.
-
Integración de red: seleccione la integración de red en la que se implementará el clúster.
-
Espacio de integración: seleccione el espacio al que pertenecerá el clúster, ya que no se hereda de la integración de red.
-
Seleccione las capacidades del clúster para la carga de trabajo:
-
Cargas de trabajo de streaming: seleccione esta opción al ingerir desde una fuente de datos de streaming.
-
Cargas de trabajo de CDC: seleccione esta opción al ingerir desde fuentes de bases de datos y aplicaciones SaaS.
-
Cargas de trabajo mixtas: seleccione cargas de trabajo mixtas para realizar pruebas, o cuando el uso de fuentes de streaming sea mínimo y las cargas de trabajo se compongan principalmente de fuentes CDC.
-
-
Configure el tipo de familia:
-
Tipo: seleccione el tipo de instancia.
-
Tamaño: seleccione el tamaño de la instancia.
-
- Configure las instancias:
-
Instancias bajo demanda de AWS: indique el número de instancias bajo demanda de AWS para este clúster.
-
Instancias Spot de AWS: indique el número mínimo y máximo de instancias de Spot que se habrán de utilizar.
- Elija una estrategia adecuada para su carga de trabajo entre las siguientes opciones:
-
Bajo coste: optimiza para un bajo coste, aunque puede dar lugar a periodos ocasionales de alta latencia.
-
Baja latencia: se esfuerza por mantener una baja latencia, al tiempo que permite los picos breves y necesarios.
-
Baja latencia constante: se amplía de forma proactiva, para garantizar que la latencia se mantenga baja.
-
Escalado manual: mantiene un número estático de instancias sin escalado automático.
-
Seleccione cómo recibirá su clúster las actualizaciones de software:
-
Implementación temprana: ideal para clústeres de desarrollo y ensayo, para validar nuevas versiones con configuraciones y código personalizados, antes de la producción.
-
Implementación posterior: las actualizaciones se aplican tras una implementación inicial satisfactoria y se recomiendan para entornos de producción.
-
Añada una Clave y un Valor para las etiquetas que desee incluir y que le ayuden a identificar, organizar y administrar los recursos.