Stap 2: Een lakehouse-cluster maken
Een lakehouse-cluster definieert de rekenomgeving voor het uitvoeren van Qlik Open Lakehouse-opslagtaken. Elk cluster specificeert instellingen, waaronder het aantal instanties, het machinetype en de schaalstrategie.
Wanneer u een netwerkintegratie maakt voor een Qlik Open Lakehouse-pijplijnproject, wordt er automatisch een cluster met één AWS Spot Instance gemaakt. U kunt echter extra clusters maken in de activiteitencentra Administration en Gegevensintegratie.
Lakehouse-clusters koppelen pijplijnen aan een groep AWS-instanties, waardoor u workloads kunt optimaliseren door kritieke taken toe te wijzen aan krachtige clusters en niet-kritieke workloads aan kosteneffectieve machines.
Hoewel een cluster is gekoppeld aan één VPC, kunnen er meerdere clusters binnen dezelfde VPC worden uitgevoerd. Bovendien kan één cluster meerdere taken uitvoeren. Het is nuttig om de rekenvereisten van uw workloads te definiëren voordat u een lakehouse-cluster maakt. Clusterinstellingen, inclusief de schaalstrategie, kunnen naar behoefte worden gewijzigd, hoewel voor sommige wijzigingen het cluster mogelijk opnieuw moet worden opgestart (gerold). Zie Lakehouse-clusters beheren voor meer informatie over het bewerken van clusterinstellingen.
Wanneer u een lakehouse-cluster maakt, geeft u het aantal Spot- en On-Demand-instanties op dat Qlik beschikbaar stelt. Zie Lakehouse-cluster (EC2 Auto-Scaling Group) voor meer informatie over hoe Qlik Spot- en On-Demand-instanties in uw cluster gebruikt.
Het gebruik van aangepaste images is optioneel. Bij gebruik van aangepaste images is een x86-image vereist, maar het gebruik van zowel arm- als x86-images wordt aanbevolen om de beschikbaarheid van spot-instanties te maximaliseren. Zie AMI-vereisten voor meer informatie.
Clustermogelijkheden
Wanneer u een cluster maakt, moet u het type workload kiezen dat het cluster uitvoert: streaming, CDC of gemengd. Over het algemeen is het een best practice om afzonderlijke clusters te gebruiken voor streaming- en CDC-bronnen (database en SaaS). Dit zorgt voor nauwkeurige en minimale factureringskosten. Er zijn echter use cases waarbij een gemengde workload geschikt is en een cluster kan delen:
-
Voor het testen of evalueren van kleinschalige projecten met onbeduidende factureringsvolumes.
-
Als het niet-streaminggebruik minimaal is en u geen afzonderlijk cluster wilt configureren en onderhouden.
Vereisten
Om een lakehouse-cluster te maken, hebt u het volgende nodig:
-
Een netwerkintegratie binnen de huidige tenant.
-
Machtiging voor toegang tot de netwerkintegratie.
Een lakehouse-cluster maken
Doe het volgende om een cluster toe te voegen aan de huidige tenant:
-
Klik in het activiteitencentrum Administration op Lakehouse clusters. Selecteer het tabblad Lakehouse clusters, klik op Create new, vervolgens op Lakehouse cluster en configureer het:
-
Name: Voer de naam van het cluster in.
-
Network integration: Selecteer de netwerkintegratie waar het cluster wordt geïmplementeerd.
-
Integration space: Selecteer de ruimte waartoe het cluster zal behoren, aangezien dit niet wordt overgenomen van de netwerkintegratie.
-
Selecteer de clustermogelijkheden voor de workload:
-
Streaming workloads: Selecteer deze optie bij het opnemen vanuit een streaming-gegevensbron.
-
CDC workloads: Selecteer deze optie bij het opnemen vanuit database- en SaaS-applicatiebronnen.
-
Mixed workloads: Selecteer gemengde workloads bij het testen, of als het gebruik van streamingbronnen minimaal is en workloads voornamelijk uit CDC-bronnen bestaan.
-
-
Configureer het familietype:
-
Type: Selecteer het type instantie.
-
Size: Selecteer de grootte van de instantie.
-
- Configureer de instanties:
-
AWS On-Demand Instances: Voer het aantal AWS On-Demand Instances in voor dit cluster.
-
AWS Spot Instances: Voer het Minimum en Maximum aantal te gebruiken Spot Instances in.
- Kies een geschikte strategie voor uw workload uit de volgende opties:
-
Low cost – Optimaliseert voor lage kosten, hoewel dit kan leiden tot incidentele perioden van hoge latentie.
-
Low latency - Streeft ernaar een lage latentie te behouden, terwijl korte, noodzakelijke pieken worden toegestaan.
-
Consistent low latency - Schaalt proactief op om ervoor te zorgen dat de latentie laag blijft.
-
Manual scaling - Behoudt een statisch aantal instanties zonder automatische schaling.
-
Selecteer hoe uw cluster software-updates ontvangt:
-
Early rollout: Ideaal voor ontwikkelings- en staging-clusters om nieuwe releases te valideren tegen aangepaste set-ups en code, voorafgaand aan productie.
-
Later rollout: Updates worden toegepast na een succesvolle vroege uitrol en worden aanbevolen voor productieomgevingen.
-
Voeg een Key en Value toe voor eventuele tags die u wilt opnemen om u te helpen bij het identificeren, organiseren en beheren van resources.