Creazione di un progetto Qlik Open Lakehouse
Creare un progetto di pipeline Qlik Open Lakehouse per ingerire i dati da qualsiasi sorgente. Archiviare i dati nel formato di tabella aperto Iceberg.
Prerequisiti
Per creare un progetto Qlik Open Lakehouse, sono necessari:
-
Un'integrazione di rete per consentire a Qlik di fornire e gestire le risorse di calcolo per suo conto.
-
Un cluster lakehouse configurato per eseguire l'attività di archiviazione dei dati all'interno del progetto Iceberg.
-
Una connessione a un catalogo dati da utilizzare come destinazione dati per il progetto, oppure i dettagli necessari per creare una nuova connessione.
Attività supportate
Le seguenti attività sono supportate in un progetto Qlik Open Lakehouse.
Sorgenti di applicazioni CDC e SaaS
-
Attività dati di trasferimento su data lake
Trasferire i dati in formato CSV in S3, da qualsiasi sorgente supportata da Qlik, compresi i flussi di dati ad alto volume.
Per ulteriori informazioni, vedere Trasferimento dei dati sul Qlik Open Lakehouse.
-
Attività dati di archiviazione
L'attività dati di archiviazione consuma i dati che sono stati trasferiti nel cloud da un'attività di trasferimento su data lake. L'attività scrive i dati nelle tabelle Iceberg per operazioni di archiviazione ed esecuzione delle query efficienti.
-
Per ulteriori informazioni, vedere Archiviazione di set di dati.
-
Mirroring delle attività dati
Esegui il mirroring delle tabelle Iceberg dalla tua attività di archiviazione al tuo data warehouse cloud. Gli utenti possono eseguire query sui dati tramite tabelle esterne senza migrare i dati nel tuo data warehouse cloud.
Sorgenti dei flussi
-
Attività di trasferimento dati di flussi
Trasferire i dati in formato Avro in S3, da qualsiasi sorgente di flusso supportata da Qlik.
Per ulteriori informazioni, vedere Trasferimento di dati in flusso a Qlik Open Lakehouse.
-
Attività di trasformazione dati in streaming
L'attività di trasformazione dati in streaming consuma gli eventi trasferiti nel cloud dall'attività di trasferimento in streaming. L'attività scrive i dati nelle tabelle Iceberg per operazioni di archiviazione ed esecuzione delle query efficienti e supporta le trasformazioni.
Per ulteriori informazioni, vedere Archiviazione di set di dati in flusso.
-
Mirroring delle attività dati
Replica le tabelle Iceberg dalla tua attività di archiviazione in streaming al tuo data warehouse cloud. Gli utenti possono eseguire query sui dati tramite tabelle esterne senza migrare i dati nel tuo data warehouse cloud.
Esempio di creazione di un progetto Qlik Open Lakehouse
L'esempio che segue crea un progetto di pipeline Qlik Open Lakehouse, esegue l'onboarding dei dati da una sorgente CDC e li memorizza in tabelle formato Iceberg. Questo esempio crea una semplice pipeline che è possibile espandere mediante l'onboarding di altre sorgenti dati. È possibile aggiungere un'attività di mirroring dei dati per rispecchiare le tabelle nel tuo data warehouse senza duplicare i dati, oppure utilizzare questo progetto come sorgente per un progetto che richiede trasformazioni nel tuo data warehouse cloud.
Per creare un progetto Qlik Open Lakehouse, fare quanto segue:
-
Nella home di Data Integration, fare clic su Crea pipeline e configurarla:
-
Nome: inserire il nome del progetto.
-
Spazi selezionare lo spazio a cui apparterrà il progetto.
-
Descrizione: facoltativamente, inserire una descrizione per il progetto.
-
In Caso di utilizzo, selezionare Pipeline di dati.
-
Configurare la Piattaforma dati:
-
Piattaforma dati: selezionare Qlik Open Lakehouse dall'elenco.
-
Connessione al catalogo dati: nell'elenco, selezionare una connessione esistente o fare clic su Crea nuovo per aggiungere una nuova connessione al catalogo dati.
-
Trasferimento della connessione di destinazione: selezionare il bucket S3 per il trasferimento dei dati o fare clic su Crea nuovo per aggiungere una nuova posizione per il bucket.
-
Cluster di elaborazione archiviazione: selezionare il cluster lakehouse che eseguirà l'attività di archiviazione.
-
Creare il progetto.
-
Seguire i passaggi nella procedura guidata per l'onboarding dei dati.Per maggiori informazioni, vedere Inserimento dati, che fornisce istruzioni per le sorgenti CDC e di streaming.