Qlik Open Lakehouse-arkitektur

Qlik Open Lakehouse tillhandahåller en helt hanterad helhetslösning i Qlik Talend Cloud för att mata in, bearbeta och optimera data i ett Iceberg-baserat lakehouse. Denna lösning ger frågeprestanda med låg latens och effektiva dataoperationer i stor skala.

Qlik Open Lakehouse-arkitekturen kombinerar säker kommunikation, skalbar beräkning och effektiv databearbetning för att leverera en modern lakehouse-upplevelse. Qlik Open Lakehouse utnyttjar inbyggda AWS-komponenter, inklusive EC2 och S3.

Kärnkomponenter

Följande entiteter krävs för att skapa ett Qlik Open Lakehouse.

Data Movement Gateway (CDC)

Data movement gateway körs i din lokala miljö eller molnmiljö. Den fångar upp ändringar från källsystem, såsom RDBMS, SAP eller stordatorer, och skickar data till en Amazon S3-mellanlagringszon. Detta krävs inte för strömmande källor.

Nätverksintegrationsagent (EC2-instans)

Nätverksintegrationsagenten är en EC2-instans som underlättar säker kommunikation mellan Qlik-tjänster i molnet och lakehouse-kluster i din miljö. Agenten distribueras automatiskt som en On-Demand-instans under nätverksintegrationsprocessen och hanteras helt av Qlik. Nya versioner distribueras automatiskt vid lansering.

När nätverksintegrationen fungerar korrekt visas statusen Ansluten i vyn Lakehouse-kluster i aktivitetscentret Administration. Statusen ändras till Frånkopplad om anslutningsproblem uppstår.

Lakehouse-kluster (EC2 Auto-Scaling Group)

Lakehouse-klustret är en grupp AWS EC2-instanser som ansvarar för databearbetning. Klusterinstanserna samordnar och kör arbetsbelastningarna för att bearbeta inkommande data från mellanlagringsområdet och, efter bearbetning, lagra data på målplatsen i Iceberg-format.

Ett lakehouse-kluster med en enda AWS Spot-instans skapas automatiskt under konfigurationen av din nätverksintegration. Du kan hantera och skapa ytterligare kluster för att stödja dina pågående lakehouse-krav. När du konfigurerar ett kluster ger du Qlik behörighet att skapa, starta, stoppa, skala eller rulla tillbaka servrarna för att uppfylla kraven på databearbetning. Varje kluster är associerat med en enda nätverksintegration, även om flera kluster kan köras inom samma nätverksintegration. Ett enda kluster kan köra många lakehouse-uppgifter.

En AWS Spot-instans använder ledig Amazon EC2-kapacitet till en lägre kostnad än vanliga instanser men kan avbrytas av AWS med kort varsel. Som standard tillhandahåller Qlik tillfälliga Spot-instanser för databearbetning. Om det inte finns tillräckligt med Spot-instanser tillgängliga på AWS Spot-marknaden använder Qlik automatiskt On-Demand-instanser för att säkerställa kontinuitet. Systemet återgår till Spot-instanser när de blir tillgängliga. Lakehouse-klustertekniken är utformad för att smidigt övergå mellan Spot- och On-Demand-instanser och flytta jobb mellan noder. Denna process sker automatiskt, utan att kräva manuell inblandning. I klusterinställningarna kan du konfigurera hur många Spot- och On-Demand-instanser som ska användas i klustret. Att använda Spot-instanser hjälper till att minska de löpande beräkningskostnaderna för ditt Qlik Open Lakehouse.

Förutom att definiera antalet Spot- och On-Demand-instanser som ska användas kan du konfigurera en skalningsstrategi som bäst passar arbetsbelastningen och budgeten för ditt projekt. Följande skalningsstrategier kan tillämpas på ett kluster:

Låg kostnad: Perfekt för utvecklings- eller QA-miljöer och arbetsbelastningar som inte är beroende av färska realtidsdata. Qlik strävar efter att hålla kostnaden så låg som möjligt, vilket resulterar i enstaka perioder med hög latens.
Låg latens: Utformad för icke-verksamhetskritiska arbetsbelastningar där Senaste aktualisering i nära realtid är acceptabelt. Även om denna strategi strävar efter låg latens kan korta toppar upplevas.
Konsekvent låg latens: Lämplig för produktionsmiljöer med storskaliga data som måste ha Senaste aktualisering i realtid. Qlik skalar proaktivt instanserna för att säkerställa låg latens, vilket kan medföra högre kostnader.
Ingen skalning: Ett bra alternativ för arbetsbelastningar som bearbetar en konsekvent datavolym. Välj detta alternativ för att behålla ett statiskt antal instanser utan automatisk skalning och med förutsägbara kostnader.

Amazon S3-buckets

Amazon S3-buckets används enligt följande:

Bucket för mellanlagringsdata: Rå CDC-data mellanlagras i en S3-bucket före transformering.
Konfigurationsbucket: Lagrar metadata och konfigurationer som används av lakehouse-systemet.
Iceberg-tabellagring: Data lagras och optimeras i tabeller i Iceberg-format. Vilken bucket som används bestäms av projektets katalogkoppling.

Övergripande flöde

Initial konfiguration

Etablering av VPC och infrastruktur - Konfigurera en VPC på ditt AWS-konto tillsammans med undernät, S3-buckets och IAM-roller genom att följa instruktionerna i Qlik-dokumentationen.
Konfiguration av nätverksintegration - Administratören för klientorganisationen skapar en nätverksintegration i Qlik Talend Cloud med hjälp av tidigare etablerade infrastrukturuppgifter.
Distribution av Qlik-komponenter - Qlik etablerar automatiskt dataplansgatewayen och ett lakehouse-kluster i din VPC.
Upprätta kommunikation - Dataplansgatewayen upprättar säker kommunikation med Qlik Talend Cloud.
Distribution av gateway - Distribuera en Data Movement Gateway (CDC), antingen lokalt eller i din molnmiljö, inklusive dataplans-VPC:n.
Redo att användas - Du kan skapa och hantera Qlik Open Lakehouse-projekt och -uppgifter enligt deras åtkomstbehörigheter när konfigurationen är klar.

Skapa ett Qlik Open Lakehouse-projekt

Följande uppgiftstyper är tillgängliga:

Uppgift för mellanlagringsdata

Källkonfiguration - Data movement gateway är konfigurerad för att fånga upp ändringar från källsystem, inklusive RDBMS, SAP, stordatorer med mera.
Datamellanlagring - CDC-uppgiften skickar kontinuerligt råa ändringsdata till den angivna S3-mellanlagringsbucketen på ditt AWS-konto.

Uppgift för lagringsdata

Registrera en Iceberg-katalogkoppling, till exempel AWS Glue Data Catalog.
Definiera en lagringsuppgift i Qlik Talend Cloud.
Qlik Talend Cloud skickar uppgiftsdefinitioner till dataplansgatewayen.
Dataplansgatewayen vidarebefordrar säkert uppgiftsinstruktionerna till Qlik-lakehouse-klustret.
Klustret läser kontinuerligt rådata från en mellanlagringsbucket i S3, bearbetar den och skriver utdata till Iceberg-tabeller i S3.
Lakehouse-klustret skalar automatiskt upp eller ner baserat på belastning, enligt fördefinierade inställningar i lakehouse-klusterinställningarna.
Övervakningsdata skickas till Qlik Talend Cloud, och loggar och mätvärden vidarebefordras till Qlik.

Uppgift för speglingsdata

Du kan skapa externa Iceberg-tabeller för att möjliggöra sökning i data som lagras i din datasjö från ditt molndatalager utan duplicering. Detta gör att du kan använda din datalageranalysmotor ovanpå Iceberg-hanterade data som lagras i format som Parquet på S3. Genom att referera till externa tabeller i stället för att duplicera data till ditt datalager minskar detta lagringskostnaderna, upprätthåller en enda sanningskälla och säkerställer konsekvens mellan lakehouse- och lagermiljöer.

Kommunikation mellan din nätverksintegration och Qlik Talend Cloud

Nätverksintegrationen upprättar en utgående säker koppling (HTTPS) till Qlik Talend Cloud. Vid framgångsrikt godkännande konverteras kopplingen till en säker webbsocket (WSS). En ytterligare, dedikerad kommunikationskanal (WSS) upprättas mellan nätverksintegrationen och Qlik Talend Cloud för att ta emot lakehouse-specifika uppgiftskommandon och kontroller. Regelbundet upprättar nätverksintegrationen en säker koppling (HTTPS) till Qlik Talend Cloud för att ta emot och skicka datarelaterade händelser. Mätvärden och loggar skickas till Qlik från lakehouse-klustren.

Följande åtgärder vidtas för att säkerställa att dina data är säkra:

Alla kopplingar från din nätverksintegration till Qlik Talend Cloud är utgående. Ingen inkommande åtkomst krävs.
Metadata, kommandon och kontrollbegäranden överförs med hjälp av kommunikationskanaler som är säkrade med HTTPS, vilket skapar ett ytterligare krypteringsskikt mellan nätverksintegrationen och Qlik Talend Cloud.
Alla data flödar mellan resurser som ägs av dig. Data skickas aldrig till Qlik Talend Cloud. Metadata, såsom tabell- och kolumnnamn, skickas till exempel till Qlik Talend Cloud för att tillåta uppgiftsdefinitioner.
Data anonymiseras innan de skickas till Qlik. Qlik använder anonymiserade data för att proaktivt stödja dig om loggarna eller mätvärdena indikerar ett problem.

Datamängdsarkitektur

Arkitekturen för en datamängd i ett Qlik Open Lakehouse-pipeline-projekt bestäms av datakällan. För mer information, se följande:

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här