Etapa 2: Criar um cluster do lakehouse
Um cluster de lakehouse define o ambiente de computação para executar as tarefas de armazenamento do Qlik Open Lakehouse. Cada cluster especifica configurações que incluem o número de instâncias, o tipo de máquina e a estratégia de dimensionamento.
Quando você cria uma integração de rede para um projeto de pipeline do Qlik Open Lakehouse, um cluster com uma única instância Spot da AWS é criado automaticamente. No entanto, você pode criar clusters adicionais nos centros de atividade de Administração e de Data Integration.
Os clusters do lakehouse vinculam pipelines a um grupo de instâncias da AWS, permitindo que você otimize as cargas de trabalho atribuindo trabalhos críticos a clusters de alto desempenho e cargas de trabalho não críticas a máquinas econômicas.
Embora um cluster esteja associado a uma única VPC, vários clusters podem ser executados na mesma VPC. Além disso, um único cluster pode executar vários trabalhos. É útil definir os requisitos de computação de suas cargas de trabalho antes de criar um cluster de lakehouse. As configurações do cluster, incluindo a estratégia de dimensionamento, podem ser modificadas conforme necessário, embora algumas alterações possam exigir que o cluster seja implementado. Para obter mais informações sobre como editar as configurações do cluster, consulte Gerenciando clusters do lakehouse
Ao criar um cluster de lakehouse, você especifica o número de instâncias Spot e On-Demand que o Qlik provisiona. Para obter mais informações sobre como o Qlik utiliza instâncias Spot e On-Demand em seu cluster, consulte Cluster do lakehouse (Grupo de dimensionamento automático do EC2)
Capacidades do cluster
Ao criar um cluster, você deve escolher o tipo de carga de trabalho que o cluster executa: streaming, CDC ou misto. Em geral, é recomendável usar clusters separados para fontes de streaming e CDC (banco de dados e SaaS). Isso garante cobranças de faturamento precisas e mínimas. No entanto, existem casos de uso em que uma carga de trabalho mista é apropriada e pode compartilhar um cluster:
-
Para o teste ou avaliação de projetos de pequena escala que têm volumes de faturamento insignificantes.
-
Se o uso não de fluxo for mínimo e você não quiser configurar e manter um cluster separado.
Pré-requisitos
Para criar um cluster do lakehouse, você precisa de:
-
Uma integração de rede com o locatário atual.
-
Permissão para acessar a integração de rede.
Criando um cluster de lakehouse
Para adicionar um cluster ao locatário atual, faça o seguinte:
-
No centro de atividades de Administração, clique em Clusters do lakehouse. Selecione a guia Clusters do lakehouse, clique em Criar novo, depois em Cluster do lakehouse e configure-o:
-
Nome: digite o nome do cluster.
-
Integração de rede: selecione a integração de rede onde o cluster será implementado.
-
Espaço de integração: selecione o espaço ao qual o cluster pertencerá, pois isso não é herdado da integração da rede.
-
Selecione os recursos do cluster para a carga de trabalho:
-
Cargas de trabalho de fluxo: selecione esta opção ao ingerir de uma fonte de dados de streaming.
-
Cargas de trabalho de CDC: selecione esta opção ao ingerir de fontes de banco de dados e aplicativos SaaS.
-
Cargas de trabalho mistas: selecione cargas de trabalho mistas ao testar, ou quando o uso de fontes de fluxo for mínimo e as cargas de trabalho consistirem principalmente em fontes de CDC.
-
-
Configure o tipo de família:
-
Tipo: selecione o tipo de instância.
-
Tamanho: selecione o tamanho da instância.
-
- Configure as instâncias:
-
Instâncias On-Demand da AWS: insira o número de instâncias On-Demand da AWS para esse cluster.
-
Instâncias Spot da AWS: insira o número Mínimo e Máximo de instâncias Spot a serem usadas.
- Escolha uma estratégia apropriada para sua carga de trabalho entre as opções a seguir:
-
Baixo custo – otimiza para baixo custo, embora possa levar a períodos ocasionais de alta latência.
-
Baixa latência – esforça-se para manter a baixa latência, permitindo picos breves e necessários.
-
Baixa latência consistente – escala verticalmente de forma proativa para garantir que a latência permaneça baixa.
-
Escalonamento manual – mantém um número estático de instâncias sem escalonamento automático.
-
Selecione como seu cluster recebe atualizações de software:
-
Implementação antecipada: ideal para desenvolvimento e preparação de clusters para validar novos lançamentos em relação a configurações e códigos personalizados, antes da produção.
-
Implementação posterior: as atualizações são aplicadas após uma implementação inicial bem-sucedida e recomendadas para ambientes de produção.
-
Adicione uma Chave e um Valor para todas as tags que você deseja incluir e que o ajudam a identificar, organizar e gerenciar recursos.