Qlik Open Lakehouse-architectuur
Qlik Open Lakehouse biedt een volledig beheerde, end-to-end oplossing in Qlik Talend Cloud voor het opnemen, verwerken en optimaliseren van gegevens in een op Iceberg gebaseerd lakehouse. Deze oplossing levert queryprestaties met lage latentie en efficiënte gegevensbewerkingen op schaal.
De Qlik Open Lakehouse-architectuur combineert veilige communicatie, schaalbare rekenkracht en efficiënte gegevensverwerking om een moderne lakehouse-ervaring te bieden. Qlik Open Lakehouse maakt gebruik van AWS-native componenten, waaronder EC2 en S3.
Kerncomponenten
De volgende entiteiten zijn vereist om een Qlik Open Lakehouse te maken.
Data Movement-gateway (CDC)
De data movement-gateway draait in uw on-premises of cloudomgeving. Deze legt wijzigingen vast van bronsystemen, zoals RDBMS, SAP of mainframes, en verzendt de gegevens naar een Amazon S3-tussenopslagzone. Dit is niet vereist voor streamingbronnen.
Netwerkintegratie-agent (EC2-instantie)
De netwerkintegratie-agent is een EC2-instantie die veilige communicatie mogelijk maakt tussen Qlik-services in de cloud en lakehouse-clusters binnen uw omgeving. De agent wordt automatisch geïmplementeerd als een On-Demand-instantie tijdens het netwerkintegratieproces en wordt volledig beheerd door Qlik. Nieuwe versies worden bij release automatisch geïmplementeerd.
Wanneer de netwerkintegratie correct functioneert, wordt de status Verbonden weergegeven in de weergave Lakehouse-clusters in het activiteitencentrum Beheer. De status verandert in Verbinding verbroken als er verbindingsproblemen optreden.
Lakehouse-cluster (EC2 Auto-Scaling Group)
Het lakehouse-cluster is een groep AWS EC2-instanties die verantwoordelijk is voor de gegevensverwerking. De clusterinstanties coördineren en voeren de workloads uit om inkomende gegevens uit het tussenopslaggebied te verwerken en slaan de gegevens na verwerking op de doellocatie op in Iceberg-indeling.
Tijdens het instellen van uw netwerkintegratie wordt automatisch een lakehouse-cluster met één AWS Spot-instantie gemaakt. U kunt extra clusters beheren en maken om uw doorlopende lakehouse-vereisten te ondersteunen. Wanneer u een cluster configureert, verleent u Qlik toestemming om de servers te maken, te starten, te stoppen, te schalen of terug te draaien om aan de vereisten voor gegevensverwerking te voldoen. Elk cluster is gekoppeld aan één netwerkintegratie, hoewel er meerdere clusters binnen dezelfde netwerkintegratie kunnen draaien. Eén cluster kan veel lakehouse-taken uitvoeren.
Een AWS Spot-instantie gebruikt reservecapaciteit van Amazon EC2 tegen lagere kosten dan reguliere instanties, maar kan door AWS met weinig voorafgaande kennisgeving worden onderbroken. Standaard levert Qlik kortstondige Spot-instanties voor gegevensverwerking. Als er onvoldoende Spot-instanties beschikbaar zijn op de AWS Spot-markt, gebruikt Qlik automatisch On-Demand-instanties om de continuïteit te waarborgen. Het systeem keert terug naar Spot-instanties wanneer deze beschikbaar komen. De lakehouse-clustertechnologie is ontworpen om soepel over te schakelen tussen Spot- en On-Demand-instanties, waarbij taken tussen knooppunten worden verplaatst. Dit proces verloopt automatisch, zonder dat handmatige tussenkomst vereist is. In de clusterinstellingen kunt u configureren hoeveel Spot- en On-Demand-instanties in het cluster moeten worden gebruikt. Het gebruik van Spot-instanties helpt de doorlopende rekenkosten van uw Qlik Open Lakehouse te verlagen.
Naast het definiëren van het aantal te gebruiken Spot- en On-Demand-instanties, kunt u een schaalstrategie configureren die het beste past bij de workload en het budget voor uw project. De volgende schaalstrategieën kunnen worden toegepast op een cluster:
-
Lage kosten: Ideaal voor ontwikkelings- of QA-omgevingen en workloads die niet afhankelijk zijn van actuele, realtime gegevens. Qlik streeft ernaar de kosten zo laag mogelijk te houden, wat resulteert in incidentele perioden van hoge latentie.
-
Lage latentie: Ontworpen voor niet-bedrijfskritische workloads waarbij near-realtime gegevensactualiteit acceptabel is. Hoewel deze strategie is gericht op een lage latentie, kunnen er korte pieken optreden.
-
Consistente lage latentie: Geschikt voor productieomgevingen met grootschalige gegevens die realtime gegevensactualiteit moeten hebben. Qlik schaalt de instanties proactief om een lage latentie te garanderen, wat hogere kosten met zich mee kan brengen.
-
Geen schaling: Een goede optie voor workloads die een consistent gegevensvolume verwerken. Selecteer deze keuze om een statisch aantal instanties te behouden zonder automatische schaling en met voorspelbare kosten.
Amazon S3-buckets
Amazon S3-buckets worden als volgt gebruikt:
-
Tussenopslaggegevens-bucket: Ruwe CDC-gegevens worden vóór transformatie in een S3-bucket opgeslagen.
-
Configuratie-bucket: Slaat metagegevens en configuraties op die door het lakehouse-systeem worden gebruikt.
-
Iceberg-tabelopslag: Gegevens worden opgeslagen en geoptimaliseerd in tabellen in Iceberg-indeling. De gebruikte bucket wordt bepaald door de catalogusverbinding van het project.
Stroom op hoog niveau
Eerste installatie
-
VPC- en infrastructuurvoorziening - Configureer een VPC in uw AWS-account, samen met subnetten, S3-buckets en IAM-rollen door de instructies in de Qlik-documentatie te volgen.
-
Configuratie van netwerkintegratie - De tenantbeheerder maakt een netwerkintegratie in Qlik Talend Cloud met behulp van eerder ingerichte infrastructuurgegevens.
-
Implementatie van Qlik-componenten - Qlik richt automatisch de data-plane-gateway en een lakehouse-cluster in binnen uw VPC.
-
Communicatie tot stand brengen - De data-plane-gateway brengt op veilige wijze communicatie tot stand met Qlik Talend Cloud.
-
Gateway-implementatie - Implementeer een Data Movement-gateway (CDC), on-premises of in uw cloudomgeving, inclusief de data-plane VPC.
-
Klaar voor gebruik - U kunt Qlik Open Lakehouse-projecten en -taken maken en beheren op basis van hun toegangsmachtigingen wanneer de installatie is voltooid.
Een Qlik Open Lakehouse-project maken
De volgende taaktypen zijn beschikbaar:
Tussenopslaggegevens-taak
-
Bronconfiguratie - De data movement-gateway is geconfigureerd om wijzigingen vast te leggen van bronsystemen, waaronder RDBMS, SAP, mainframes en meer.
-
Gegevenstussenopslag - De CDC-taak verzendt continu ruwe wijzigingsgegevens naar de aangewezen S3-tussenopslag-bucket in uw AWS-account.
Opslaggegevens-taak
-
Registreer een Iceberg-catalogusverbinding, bijvoorbeeld AWS Glue Data Catalog.
-
Definieer een opslagtaak in Qlik Talend Cloud.
-
Qlik Talend Cloud verzendt taakdefinities naar de data-plane-gateway.
-
De data-plane-gateway stuurt de taakinstructies veilig door naar het Qlik lakehouse-cluster.
-
Het cluster leest continu ruwe gegevens uit een tussenopslag-bucket in S3, verwerkt deze en schrijft de uitvoer naar Iceberg-tabellen in S3.
-
Het lakehouse-cluster schaalt automatisch op of af op basis van de belasting, volgens vooraf gedefinieerde voorkeuren in de instellingen van het lakehouse-cluster.
-
Bewakingsgegevens worden verzonden naar Qlik Talend Cloud en logboeken en statistieken worden doorgestuurd naar Qlik.
Spiegelgegevens-taak
U kunt externe Iceberg-tabellen maken om het opvragen van gegevens die zijn opgeslagen in uw data lake vanuit uw clouddatawarehouse mogelijk te maken zonder duplicatie. Hierdoor kunt u uw datawarehouse-analyse-engine gebruiken bovenop door Iceberg beheerde gegevens die zijn opgeslagen in indelingen zoals Parquet op S3. Door te verwijzen naar externe tabellen in plaats van gegevens te dupliceren naar uw datawarehouse, worden de opslagkosten verlaagd, blijft er één enkele bron van waarheid behouden en wordt de consistentie tussen lakehouse- en warehouse-omgevingen gewaarborgd.
Communicatie tussen uw netwerkintegratie en Qlik Talend Cloud
De netwerkintegratie brengt een uitgaande beveiligde verbinding (HTTPS) tot stand met Qlik Talend Cloud. Na succesvolle acceptatie wordt de verbinding omgezet in een beveiligde WebSocket (WSS). Er wordt een extra, toegewijd communicatiekanaal (WSS) tot stand gebracht tussen de netwerkintegratie en Qlik Talend Cloud om lakehouse-specifieke taakopdrachten en -besturingselementen te ontvangen. Periodiek brengt de netwerkintegratie een beveiligde verbinding (HTTPS) tot stand met Qlik Talend Cloud om gegevensgerelateerde gebeurtenissen te ontvangen en te verzenden. Statistieken en logboeken worden vanuit de lakehouse-clusters naar Qlik verzonden.
De volgende maatregelen worden genomen om ervoor te zorgen dat uw gegevens veilig zijn:
-
Alle verbindingen van uw netwerkintegratie naar Qlik Talend Cloud zijn uitgaand. Er is geen inkomende toegang vereist.
-
Metagegevens, opdrachten en besturingsverzoeken worden verzonden via communicatiekanalen die zijn beveiligd met HTTPS, waardoor een extra coderingslaag ontstaat tussen de netwerkintegratie en Qlik Talend Cloud.
-
Alle gegevensstromen lopen tussen bronnen die uw eigendom zijn. Gegevens worden nooit naar Qlik Talend Cloud verzonden. Metagegevens, zoals bijvoorbeeld tabel- en kolomnamen, worden naar Qlik Talend Cloud verzonden om taakdefinities mogelijk te maken.
-
Gegevens worden geanonimiseerd voordat ze naar Qlik worden verzonden. Qlik gebruikt geanonimiseerde gegevens om u proactief te ondersteunen mochten de logboeken of statistieken op een probleem wijzen.
Dataset-architectuur
De architectuur van een dataset in een Qlik Open Lakehouse-pijplijnproject wordt bepaald door de gegevensbron. Zie het volgende voor meer informatie: