Etapa 2: Criar um cluster do lakehouse

Um cluster de lakehouse define o ambiente de computação para executar as tarefas de armazenamento do Qlik Open Lakehouse. Cada cluster especifica configurações que incluem o número de instâncias, o tipo de máquina e a estratégia de dimensionamento.

Quando você cria uma integração de rede para um projeto de pipeline do Qlik Open Lakehouse, um cluster com uma única instância Spot da AWS é criado automaticamente. No entanto, você pode criar clusters adicionais nos centros de atividade de Administração e de Data Integration.

Os clusters do lakehouse vinculam pipelines a um grupo de instâncias da AWS, permitindo que você otimize as cargas de trabalho atribuindo trabalhos críticos a clusters de alto desempenho e cargas de trabalho não críticas a máquinas econômicas.

Embora um cluster esteja associado a uma única VPC, vários clusters podem ser executados na mesma VPC. Além disso, um único cluster pode executar vários trabalhos. É útil definir os requisitos de computação de suas cargas de trabalho antes de criar um cluster de lakehouse. As configurações do cluster, incluindo a estratégia de dimensionamento, podem ser modificadas conforme necessário, embora algumas alterações possam exigir que o cluster seja implementado. Para obter mais informações sobre como editar as configurações do cluster, consulte Gerenciando clusters do lakehouse

Ao criar um cluster de lakehouse, você especifica o número de instâncias Spot e On-Demand que o Qlik provisiona. Para obter mais informações sobre como o Qlik utiliza instâncias Spot e On-Demand em seu cluster, consulte Cluster do lakehouse (Grupo de dimensionamento automático do EC2)

O uso de imagens personalizadas é opcional. Ao usar imagens personalizadas, uma imagem x86 é necessária, mas o uso de imagens arm e x86 é recomendado para maximizar a disponibilidade de instâncias spot. Para obter mais informações, consulte Requisitos AMI .

Capacidades do cluster

Ao criar um cluster, você deve escolher o tipo de carga de trabalho que o cluster executa: streaming, CDC ou misto. Em geral, é recomendável usar clusters separados para fontes de streaming e CDC (banco de dados e SaaS). Isso garante cobranças de faturamento precisas e mínimas. No entanto, existem casos de uso em que uma carga de trabalho mista é apropriada e pode compartilhar um cluster:

Para o teste ou avaliação de projetos de pequena escala que têm volumes de faturamento insignificantes.
Se o uso não de fluxo for mínimo e você não quiser configurar e manter um cluster separado.

Pré-requisitos

Para criar um cluster do lakehouse, você precisa de:

Uma integração de rede com o locatário atual.
Permissão para acessar a integração de rede.

Criando um cluster de lakehouse

Para adicionar um cluster ao locatário atual, faça o seguinte:

No centro de atividades de Administração, clique em Clusters do lakehouse. Selecione a guia Clusters do lakehouse, clique em Criar novo, depois em Cluster do lakehouse e configure-o:

Nome: digite o nome do cluster.
Integração de rede: selecione a integração de rede onde o cluster será implementado.

Espaço de integração: selecione o espaço ao qual o cluster pertencerá, pois isso não é herdado da integração da rede.
Selecione os recursos do cluster para a carga de trabalho:
- Cargas de trabalho de fluxo: selecione esta opção ao ingerir de uma fonte de dados de streaming.
- Cargas de trabalho de CDC: selecione esta opção ao ingerir de fontes de banco de dados e aplicativos SaaS.
- Cargas de trabalho mistas: selecione cargas de trabalho mistas ao testar, ou quando o uso de fontes de fluxo for mínimo e as cargas de trabalho consistirem principalmente em fontes de CDC.
Configure o tipo de família:
- Tipo: selecione o tipo de instância.
- Tamanho: selecione o tamanho da instância.
Configure as instâncias:

Instâncias On-Demand da AWS: insira o número de instâncias On-Demand da AWS para esse cluster.
Instâncias Spot da AWS: insira o número Mínimo e Máximo de instâncias Spot a serem usadas.

Escolha uma estratégia apropriada para sua carga de trabalho entre as opções a seguir:

Baixo custo – otimiza para baixo custo, embora possa levar a períodos ocasionais de alta latência.
Baixa latência – esforça-se para manter a baixa latência, permitindo picos breves e necessários.
Baixa latência consistente – escala verticalmente de forma proativa para garantir que a latência permaneça baixa.
Escalonamento manual – mantém um número estático de instâncias sem escalonamento automático.

Selecione como seu cluster recebe atualizações de software:

Implementação antecipada: ideal para desenvolvimento e preparação de clusters para validar novos lançamentos em relação a configurações e códigos personalizados, antes da produção.
Implementação posterior: as atualizações são aplicadas após uma implementação inicial bem-sucedida e recomendadas para ambientes de produção.

Adicione uma Chave e um Valor para todas as tags que você deseja incluir e que o ajudam a identificar, organizar e gerenciar recursos.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui