Steg 2: Skapa ett lakehouse-kluster

Ett lakehouse-kluster definierar den beräkningsmiljö som ska köra Qlik Open Lakehouse-lagringsuppgifter. Varje kluster anger inställningar som inkluderar antalet instanser, maskintyp och skalningsstrategi.

När du skapar en nätverksintegration för ett Qlik Open Lakehouse-pipeline-projekt skapas automatiskt ett kluster med en enda AWS Spot-instans. Du kan dock skapa ytterligare kluster i aktivitetscentren Administration och Dataintegrering.

Lakehouse-kluster länkar pipelines till en grupp AWS-instanser, vilket gör att du kan optimera arbetsbelastningar genom att tilldela kritiska jobb till högpresterande kluster och icke-kritiska arbetsbelastningar till kostnadseffektiva maskiner.

Även om ett kluster är associerat med en enda VPC kan flera kluster köras inom samma VPC. Dessutom kan ett enda kluster köra flera jobb. Det är till hjälp att definiera beräkningskraven för dina arbetsbelastningar innan du skapar ett lakehouse-kluster. Klusterinställningar, inklusive skalningsstrategin, kan ändras vid behov, även om vissa ändringar kan kräva att klustret rullas. För mer information om att redigera klusterinställningar, se Hantera datasjöhuskluster

När du skapar ett lakehouse-kluster anger du antalet Spot- och On-Demand-instanser som Qlik tillhandahåller. För mer information om hur Qlik använder Spot- och On-Demand-instanser i ditt kluster, se Lakehouse-kluster (EC2 Auto-Scaling Group)

Att använda anpassade avbildningar är valfritt. När du använder anpassade avbildningar krävs en x86-avbildning, men det rekommenderas att använda både arm- och x86-avbildningar för att maximera tillgängligheten för spot-instanser. För mer information, seAMI-krav .

Klusterfunktioner

När du skapar ett kluster måste du välja den typ av arbetsbelastning som klustret kör: strömmande, CDC eller blandad. Generellt sett är det bästa praxis att använda separata kluster för strömmande och CDC-källor (databas och SaaS). Detta säkerställer korrekta och minimala faktureringsavgifter. Det finns dock användningsfall när en blandad arbetsbelastning är lämplig och kan dela ett kluster:

För testning eller utvärdering av småskaliga projekt som har obetydliga faktureringsvolymer.
Om icke-strömmande användning är minimal och du inte vill konfigurera och underhålla ett separat kluster.

Förutsättningar

För att skapa ett lakehouse-kluster behöver du:

En nätverksintegration inom den aktuella klientorganisationen.
Behörighet att komma åt nätverksintegrationen.

Skapa ett lakehouse-kluster

Gör följande för att lägga till ett kluster i den aktuella klientorganisationen:

I aktivitetscentret Administration klickar du på Lakehouse-kluster. Välj fliken Lakehouse-kluster, klicka på Skapa ny, sedan Lakehouse-kluster och konfigurera det:

Namn: Ange namnet på klustret.
Nätverksintegration: Välj den nätverksintegration där klustret ska distribueras.

Integrationsutrymme: Välj det utrymme som klustret ska tillhöra, eftersom detta inte ärvs från nätverksintegrationen.
Välj klusterfunktionerna för arbetsbelastningen:
- Strömmande arbetsbelastningar: Välj det här alternativet när du matar in från en strömmande datakälla.
- CDC-arbetsbelastningar: Välj det här alternativet när du matar in från databas- och SaaS-applikationskällor.
- Blandade arbetsbelastningar: Välj blandade arbetsbelastningar vid testning, eller om användningen av strömmande källor är minimal och arbetsbelastningarna mestadels består av CDC-källor.
Konfigurera familjetypen:
- Typ: Välj instanstyp.
- Storlek: Välj instansstorlek.
Konfigurera instanserna:

AWS On-Demand-instanser: Ange antalet AWS On-Demand-instanser för detta kluster.
AWS Spot-instanser: Ange Minimum och Maximum antal Spot-instanser som ska användas.

Välj en lämplig strategi för din arbetsbelastning bland följande alternativ:

Låg kostnad – Optimerar för låg kostnad, men kan leda till tillfälliga perioder med hög latens.
Låg latens - Strävar efter att bibehålla låg latens, samtidigt som korta, nödvändiga toppar tillåts.
Konsekvent låg latens - Skalar proaktivt upp för att säkerställa att latensen förblir låg.
Manuell skalning - Behåller ett statiskt antal instanser utan automatisk skalning.

Välj hur ditt kluster tar emot programuppdateringar:

Tidig utrullning: Perfekt för utvecklings- och iscensättningskluster för att validera nya versioner mot anpassade inställningar och kod, före produktion.
Senare utrullning: Uppdateringar tillämpas efter en framgångsrik tidig utrullning och rekommenderas för produktionsmiljöer.

Lägg till en Nyckel och ett Värde för eventuella taggar du vill inkludera som hjälper dig att identifiera, organisera och hantera resurser.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här