Qlik Open Lakehouse architettura
Qlik Open Lakehouse fornisce una soluzione end-to-end completamente gestita in Qlik Talend Cloud per acquisire, elaborare e ottimizzare i dati in un lakehouse basato su Iceberg. Questa soluzione offre prestazioni di query a bassa latenza e operazioni sui dati efficienti su larga scala.
L'architettura Qlik Open Lakehouse combina comunicazioni sicure, calcolo scalabile ed elaborazione dei dati efficiente per offrire un'esperienza lakehouse moderna. Qlik Open Lakehouse sfrutta componenti nativi di AWS, inclusi EC2 e S3.
Componenti principali
Le seguenti entità sono necessarie per creare un Qlik Open Lakehouse.
Data Movement Gateway (CDC)
Il data movement gateway viene eseguito nel proprio ambiente cloud o on-premise. Cattura le modifiche dai sistemi di origine, come RDBMS, SAP o mainframe, e invia i dati a una zona di trasferimento Amazon S3. Questo non è richiesto per le sorgenti di streaming.
Agente di integrazione di rete (istanza EC2)
L'agente di integrazione di rete è un'istanza EC2 che facilita la comunicazione sicura tra i servizi Qlik nel cloud e i cluster lakehouse all'interno del proprio ambiente. L'agente viene distribuito automaticamente come istanza on-demand durante il processo di integrazione di rete ed è completamente gestito da Qlik. Le nuove versioni vengono distribuite automaticamente al momento del rilascio.
Quando l'integrazione di rete funziona correttamente, viene visualizzato lo stato Connesso nella vista Cluster lakehouse nel centro attività Amministrazione. Lo stato cambia in Disconnesso se si verificano problemi di connettività.
Cluster lakehouse (gruppo Auto-Scaling EC2)
Il cluster lakehouse è un gruppo di istanze AWS EC2 responsabili dell'elaborazione dei dati. Le istanze del cluster coordinano ed eseguono i carichi di lavoro per elaborare i dati in arrivo dall'area di trasferimento e, dopo l'elaborazione, archiviano i dati nella posizione di destinazione in formato Iceberg.
Un cluster lakehouse con una singola istanza Spot AWS viene creato automaticamente durante la configurazione dell'integrazione di rete. È possibile gestire e creare cluster aggiuntivi per supportare i requisiti lakehouse in corso. Quando si configura un cluster, si concede a Qlik l'autorizzazione per creare, avviare, arrestare, ridimensionare o ripristinare i server per soddisfare i requisiti di elaborazione dei dati. Ogni cluster è associato a una singola integrazione di rete, sebbene più cluster possano essere eseguiti all'interno della stessa integrazione di rete. Un singolo cluster può eseguire molte attività lakehouse.
Un'istanza Spot AWS utilizza la capacità Amazon EC2 di riserva a un costo inferiore rispetto alle istanze normali, ma può essere interrotta da AWS con scarso preavviso. Per impostazione predefinita, Qlik esegue il provisioning di istanze Spot effimere per l'elaborazione dei dati. Se non ci sono sufficienti istanze Spot disponibili nel mercato Spot AWS, Qlik utilizza automaticamente istanze on-demand per garantire la continuità. Il sistema ritorna alle istanze Spot quando diventano disponibili. La tecnologia del cluster lakehouse è progettata per passare agevolmente tra istanze Spot e on-demand, spostando i processi tra i nodi. Questo processo avviene automaticamente, senza richiedere alcun intervento manuale. Nelle impostazioni del cluster, è possibile configurare quante istanze Spot e on-demand devono essere utilizzate nel cluster. L'utilizzo di istanze Spot aiuta a ridurre i costi di calcolo continui del proprio Qlik Open Lakehouse.
Oltre a definire il numero di istanze Spot e on-demand da utilizzare, è possibile configurare una strategia di ridimensionamento che si adatti al meglio al carico di lavoro e al budget per il proprio progetto. Le seguenti strategie di ridimensionamento possono essere applicate a un cluster:
-
Basso costo: ideale per ambienti di sviluppo o QA e carichi di lavoro che non dipendono da dati aggiornati in tempo reale. Qlik si impegna a mantenere i costi il più bassi possibile, con conseguenti periodi occasionali di latenza elevata.
-
Bassa latenza: progettata per carichi di lavoro non mission-critical in cui è accettabile un'attualità dei dati quasi in tempo reale. Sebbene questa strategia miri a una bassa latenza, potrebbero verificarsi brevi picchi.
-
Bassa latenza costante: adatta per ambienti di produzione con dati su larga scala che devono avere un'attualità dei dati in tempo reale. Qlik ridimensiona in modo proattivo le istanze per garantire una bassa latenza, il che può comportare costi più elevati.
-
Nessun ridimensionamento: una buona opzione per i carichi di lavoro che elaborano un volume costante di dati. Selezionare questa scelta per mantenere un numero statico di istanze senza ridimensionamento automatico e con costi prevedibili.
Bucket Amazon S3
I bucket Amazon S3 vengono utilizzati come segue:
-
Bucket dei dati di trasferimento: i dati CDC grezzi vengono trasferiti in un bucket S3 prima della trasformazione.
-
Bucket di configurazione: archivia i metadati e le configurazioni utilizzati dal sistema lakehouse.
-
Archiviazione tabelle Iceberg: i dati vengono archiviati e ottimizzati in tabelle in formato Iceberg. Il bucket utilizzato è determinato dalla connessione al catalogo del progetto.
Flusso di alto livello
Configurazione iniziale
-
Provisioning di VPC e infrastruttura - Configurare un VPC nel proprio account AWS insieme a sottoreti, bucket S3 e ruoli IAM seguendo le istruzioni all'interno della documentazione di Qlik.
-
Configurazione dell'integrazione di rete - L'amministratore del tenant crea un'integrazione di rete in Qlik Talend Cloud utilizzando i dettagli dell'infrastruttura di cui è stato precedentemente eseguito il provisioning.
-
Distribuzione dei componenti Qlik - Qlik esegue automaticamente il provisioning del gateway del piano dati e di un cluster lakehouse all'interno del proprio VPC.
-
Stabilire la comunicazione - Il gateway del piano dati stabilisce in modo sicuro la comunicazione con Qlik Talend Cloud.
-
Distribuzione del gateway - Distribuire un Data Movement Gateway (CDC), on-premise o nel proprio ambiente cloud, incluso il VPC del piano dati.
-
Pronto per operare - È possibile creare e gestire progetti e attività Qlik Open Lakehouse in base alle relative autorizzazioni di accesso una volta completata la configurazione.
Creazione di un progetto Qlik Open Lakehouse
Sono disponibili i seguenti tipi di attività:
Attività dei dati di trasferimento
-
Configurazione dell'origine - Il data movement gateway è configurato per acquisire le modifiche dai sistemi di origine, inclusi RDBMS, SAP, mainframe e altro ancora.
-
Trasferimento dei dati - L'attività CDC invia continuamente i dati di modifica grezzi al bucket di trasferimento S3 designato nel proprio account AWS.
Attività dei dati di archiviazione
-
Registrare una connessione al catalogo Iceberg, ad esempio AWS Glue Data Catalog.
-
Definire un'attività di archiviazione in Qlik Talend Cloud.
-
Qlik Talend Cloud invia le definizioni delle attività al gateway del piano dati.
-
Il gateway del piano dati inoltra in modo sicuro le istruzioni dell'attività al cluster lakehouse di Qlik.
-
Il cluster legge continuamente i dati grezzi da un bucket di trasferimento in S3, li elabora e scrive l'output nelle tabelle Iceberg in S3.
-
Il cluster lakehouse si ridimensiona automaticamente verso l'alto o verso il basso in base al carico, in base alle preferenze predefinite nelle impostazioni del cluster lakehouse.
-
I dati di monitoraggio vengono inviati a Qlik Talend Cloud, mentre i log e le metriche vengono inoltrati a Qlik.
Attività dei dati di mirroring
È possibile creare tabelle Iceberg esterne per abilitare l'interrogazione dei dati archiviati nel proprio data lake dal proprio data warehouse cloud senza duplicazioni. Ciò consente di utilizzare il motore di analisi del data warehouse sui dati gestiti da Iceberg archiviati in formati come Parquet su S3. Facendo riferimento a tabelle esterne anziché duplicare i dati nel data warehouse, si riducono i costi di archiviazione, si mantiene un'unica fonte di verità e si garantisce la coerenza tra gli ambienti lakehouse e warehouse.
Comunicazione tra l'integrazione di rete e Qlik Talend Cloud
L'integrazione di rete stabilisce una connessione sicura in uscita (HTTPS) verso Qlik Talend Cloud. In caso di accettazione riuscita, la connessione viene convertita in un Web socket sicuro (WSS). Un canale di comunicazione aggiuntivo e dedicato (WSS) viene stabilito tra l'integrazione di rete e Qlik Talend Cloud per ricevere comandi e controlli delle attività specifici del lakehouse. Periodicamente, l'integrazione di rete stabilisce una connessione sicura (HTTPS) verso Qlik Talend Cloud per ricevere e inviare eventi relativi ai dati. Le metriche e i log vengono inviati a Qlik dai cluster lakehouse.
Vengono adottate le seguenti misure per garantire la sicurezza dei dati:
-
Tutte le connessioni dall'integrazione di rete a Qlik Talend Cloud sono in uscita. Non è richiesto alcun accesso in entrata.
-
I metadati, i comandi e le richieste di controllo vengono trasmessi utilizzando canali di comunicazione protetti con HTTPS, creando un livello aggiuntivo di crittografia tra l'integrazione di rete e Qlik Talend Cloud.
-
Tutti i flussi di dati avvengono tra risorse di propria proprietà. I dati non vengono mai inviati a Qlik Talend Cloud. I metadati, come ad esempio i nomi di tabelle e colonne, vengono inviati a Qlik Talend Cloud per consentire le definizioni delle attività.
-
I dati vengono resi anonimi prima dell'invio a Qlik. Qlik utilizza dati resi anonimi per supportare in modo proattivo l'utente qualora i log o le metriche indichino un problema.
Architettura del set di dati
L'architettura di un set di dati in un progetto pipeline Qlik Open Lakehouse è determinata dalla sorgente dati. Per ulteriori informazioni, vedere quanto segue: