Qlik Open Lakehouse-arkitektur
Qlik Open Lakehouse tillhandahåller en fullt hanterad, heltäckande lösning på Qlik Talend Cloud för att ta in, bearbeta och optimera data i ett Iceberg-baserat sjöhus. Den här lösningen ger sökprestanda med kort fördröjning och effektiv datahantering i stor skala.
Qlik Open Lakehouse-arkitekturen kombinerar säker kommunikation, skalbar databehandling och effektiv databehandling för att ge en modern sjöhusupplevelse. Qlik Open Lakehouse använder sig av interna AWS-komponenter, inklusive EC2, S3 och Kinesis.
Kärnkomponenter
Följande enheter krävs för att skapa ett Qlik Open Lakehouse.
Gateway för dataflytt (CDC)
Data Movement Gateway körs i din lokala miljö eller i molnet. Den fångar upp ändringar från källsystem, t.ex. RDBMS, SAP eller stordatorer, och skickar data till en mellanlagringszon på Amazon S3.
Agent för nätverksintegration (EC2-instans)
Nätverksintegrationsagenten är en EC2-instans som underlättar säker kommunikation mellan Qlik -tjänster i molnet och datasjöhuskluster i din miljö. Agenten distribueras automatiskt som en On-Demand-instans under nätverksintegrationsprocessen och hanteras helt och hållet av Qlik. Nya versioner distribueras automatiskt vid release.
När nätverksintegrationen fungerar som den ska visas statusen Kopplad i vyn Datasjöhuskluster i aktivitetscentret för Administration. Statusen ändras till Frånkopplad om det uppstår problem med kopplingen.
Datasjöhuskluster (EC2 Auto-Scaling Group)
Datasjöhusklustret är en grupp av AWS EC2-instanser som är responsiva för databehandling. Klusterinstanserna koordinerar och kör arbetsbelastningarna för att bearbeta inkommande data från mellanlagringen och för att efter bearbetning lagra data på målplatsen i Iceberg-format.
Ett datasjöhuskluster med en enda AWS Spot-instans skapas automatiskt under installationen av din nätverksintegration. Du kan hantera och skapa ytterligare kluster för att stödja dina löpande behov av sjöhus. När du konfigurerar ett kluster ger du Qlik behörighet att skapa, starta, stoppa, skala eller rulla tillbaka servrarna för att uppfylla databehandlingskraven. Varje kluster är associerat med en enda nätverksintegration, även om flera kluster kan köras inom samma nätverksintegration. Ett enda kluster kan köra många sjöhusuppgifter.
En AWS Spot-instans använder ledig Amazon EC2-kapacitet till en lägre kostnad än vanliga instanser, men kan avbrytas av AWS med kort varsel. Som standard levererar Qlik kortlivade Spot-instanser för databearbetning. Om det inte finns tillräckligt många Spot-instanser tillgängliga på AWS Spot market kommer Qlikautomatiskt att använda On-demand-instanser för att säkerställa kontinuiteten. Systemet återgår till Spot-instanser när de blir tillgängliga. Datasjöhuskluster-tekniken är utformad för att på ett elegant sätt övergå mellan Spot- och On-Demand-instanser och flytta jobb mellan noder. Denna process sker automatiskt, utan att det krävs manuella ingrepp. I klusterinställningarna kan du konfigurera hur många Spot- och On-Demand-instanser som ska användas i klustret. Genom att använda Spot Instances kan du minska de löpande beräknade kostnaderna för ditt Qlik Open Lakehouse.
Förutom att definiera antalet Spot- och On-Demand-instanser som ska användas kan du konfigurera en skalningsstrategi som bäst passar arbetsbelastningen och budgeten för ditt projekt. Följande skalningsstrategier kan tillämpas på ett kluster:
-
Låg kostnad: idealisk för utvecklings- eller QA-miljöer och arbetsbelastningar som inte är beroende av färska data i realtid. Qlik strävar efter att hålla kostnaden så låg som möjligt, vilket resulterar i tillfälliga perioder med lång svarstid.
-
Kort svarstid: utformad för icke uppdragskritiska arbetsbelastningar där datafärskhet i nära realtid är acceptabelt. Även om denna strategi syftar till kort svarstid kan tillfälliga toppar förekomma.
-
Konsekvent korta svarstider: lämplig för produktionsmiljöer med högskalig data som måste ha färsk data i realtid. Qlik skalar instanserna proaktivt för att säkerställa kort svarstid, vilket kan leda till högre kostnader.
-
Ingen skalning: ett bra alternativ för arbetsbelastningar som bearbetar en jämn datavolym. Välj detta alternativ om du vill behålla ett statiskt antal instanser utan automatisk skalning och med förutsägbara kostnader.
Kinesis-ström (samordning av arbetsbelastning)
Qlik kräver en Kinesis-ström för att sammanställa och vidarebefordra tillståndet för varje server i datasjöhusklustret. Servrarna rapporterar status för uppgifter och driftsmått som CPU och minne direkt till Kinesis, eftersom servrarna inte kommunicerar med varandra. Varje server hämtar data från Kinesis-strömmen för att få information om de andra servrarna i klustret. Detta informationsutbyte gör det möjligt att synkronisera arbetet.
Amazon S3-buckets
Amazon S3 buckets används på följande sätt:
-
Mellanlagring av databucket: rå CDC-data mellanlagras i en S3-bucket före datatransformering.
-
Configuration bucket (Konfigurations-bucket): lagrar metadata och konfigurationer som används av sjöhussystemet.
-
Lagring i Iceberg-tabeller: data lagras och optimeras i tabeller i Iceberg-format.
Arbetsflöde på hög nivå
Initial inställning
-
Konfigurera VPC och infrastruktur – konfigurera en VPC i ditt AWS-konto tillsammans med delnätverk, S3-buckets, Kinesis-strömmar och IAM-roller genom att följa instruktionerna i Qlik-dokumentationen.
-
Konfiguration av nätverksintegration – klientorganisationens administratör skapar en nätverksintegration i Qlik Talend Cloud med hjälp av tidigare tillhandahållna infrastrukturdetaljer.
-
Distribution av Qlik-komponenter – Qlik distribuerar automatiskt dataplansgatewayen och ett datasjöhuskluster inom din VPC.
-
Upprätta kommunikation – Gatewayen i dataplanet upprättar på ett säkert sätt kommunikation med Qlik Talend Cloud.
-
Gateway-distribution – distribuera en Data Movement gateway (CDC), antingen lokalt eller i din miljö i molnet, inklusive dataplanets VPC.
-
Redo att köra – du kan skapa och hantera Qlik Open Lakehouse-projekt och uppgifter -enligt deras åtkomstbehörigheter när konfigurationen är klar.
Skapar ett Qlik Open Lakehouse-projekt
Följande uppgiftstyper är tillgängliga:
Datauppgift för mellanlagring
-
Konfiguration av källa – Data Movement gateway är konfigurerad för att fånga upp ändringar från källsystem, inklusive RDBMS, SAP, stordatorer med mera.
-
Mellanlagring av data – CDC-uppgiften skickar kontinuerligt råa ändringsdata till angiven S3 bucket för mellanlagring i ditt AWS-konto.
Lagringsdatauppgift
-
Registrera en koppling till en Iceberg-katalog, t.ex. AWS Glue-datakatalog.
-
Definiera en lagringsuppgift i Qlik Talend Cloud.
-
Qlik Talend Cloud skickar uppgiftsdefinitioner till dataplan-gatewayen.
-
Gatewayen i dataplanet vidarebefordrar instruktionerna på ett säkert sätt till Qliks datasjöhuskluster.
-
Klustret läser kontinuerligt rådata från en bucket för mellanlagring i S3, bearbetar dem och skriver utdata till Iceberg-tabeller i S3.
-
Datasjöhusklustret skalas automatiskt upp eller ner baserat på belastning, enligt fördefinierade inställningar i datasjöhusklustrets inställningar.
-
Övervakningsdata skickas till Qlik Talend Cloud, och loggar och mätvärden vidarebefordras till Qlik.
Spegla datauppgift
Du kan skapa externa Iceberg-tabeller för att göra det möjligt att söka efter data som lagras i din datasjö från Snowflake utan att kopiera dem. Detta gör att du kan använda analysmotorn Snowflake ovanpå Iceberg-hanterade data som lagras i format som Parquet på S3. Genom att hänvisa till externa tabeller i stället för att kopiera data till Snowflake minskar lagringskostnaderna, en enda källa till sanning upprätthålls och enhetlighet säkerställs mellan sjöhus- och lager-miljöerna.
Kommunikation mellan din nätverksintegration och Qlik Talend Cloud
Nätverksintegrationen upprättar en utgående säker koppling (HTTPS) till Qlik Talend Cloud. När anslutningen har godkänts konverteras den till en säker web socket (WSS). En ytterligare, dedikerad kommunikationskanal (WSS) upprättas mellan nätverksintegrationen och Qlik Talend Cloud för att ta emot sjöhusspecifika uppdragskommandon och kontroller. Med jämna mellanrum upprättar nätverksintegrationen en säker koppling (HTTPS) till Qlik Talend Cloud för att ta emot och skicka datarelaterade händelser. Mätvärden och loggar skickas till Qlik från datasjöhusklustren.
Följande åtgärder vidtas för att säkerställa att dina uppgifter är säkra:
-
Alla kopplingar från din nätverksintegration till Qlik Talend Cloud är utgående. Ingen inkommande åtkomst krävs.
-
Metadata, kommandon och kontrollförfrågningar överförs med hjälp av kommunikationskanaler som är säkrade med HTTPS, vilket skapar ytterligare ett skikt av kryptering mellan nätverksintegrationen och Qlik Talend Cloud.
-
Alla dataflöden mellan resurser som ägs av dig. Data skickas aldrig till Qlik Talend Cloud. Metadata, som t.ex. namn på tabeller och kolumner, skickas till Qlik Talend Cloud för att möjliggöra uppgiftsdefinitioner.
-
Uppgifterna anonymiseras innan de skickas till Qlik. Qlik använder anonymiserade data för att proaktivt stödja dig om loggarna eller mätvärdena indikerar ett problem.