Trasferimento di dati in flusso a Qlik Open Lakehouse
I dati vengono trasferiti in Amazon S3, pronti per l'attività Streaming Transform per convertirli nel formato di tabella aperto Iceberg. È possibile trasferire i dati da qualsiasi sorgente di flusso supportata da Qlik.
Il trasferimento di dati in flusso su Qlik Open Lakehouse richiede un bucket Amazon S3 preconfigurato. Qlik Open Lakehouse è specificamente ottimizzato per sorgenti dati ad alto volume ed è compatibile con tutte le sorgenti dati di streaming supportate da Qlik. Per maggiori informazioni sulle origini di flusso supportate, vedere Connessione ai flussi di dati.
I dati non elaborati vengono inseriti in formato Avro in S3 e l'attività di trasformazione in streaming converte i dati in formato Iceberg. La specifica Iceberg consente di eseguire query sui dati da qualsiasi motore che supporti nativamente Trino SQL, ad esempio Amazon Athena, Ahana o Starburst Enterprise. Facoltativamente, le tabelle possono essere sottoposte a mirroring nel data warehouse cloud, dove possono essere interrogate senza duplicare i dati.
Il trasferimento dei dati in un Qlik Open Lakehouse è disponibile nei progetti con una connessione di destinazione di AWS Glue Data Catalog.
Preparazioni
-
È necessario un cluster lakehouse di archiviazione per eseguire l'ingestione e deve essere configurato prima di creare il progetto.
-
Sebbene sia possibile configurare le impostazioni di connessione di origine e di destinazione nell'installazione guidata, per semplificare la procedura di configurazione, si consiglia di farlo prima di creare l'attività.
-
Per eseguire il mirroring dei dati nel tuo data warehouse cloud, è necessario prima creare un progetto Qlik Open Lakehouse per ingerire i dati e memorizzarli utilizzando il formato di tabella aperto Iceberg. È possibile aggiungere un'attività dati di mirroring dopo l'attività di trasformazione in streaming. Per ulteriori informazioni, vedere Mirroring dei dati in un data warehouse cloud..
Creare un'attività di trasferimento in streaming
Per creare un'attività di trasferimento in streaming, procedere come segue per creare prima il progetto:
-
Creare un progetto, quindi selezionare Pipeline di dati in Caso d'uso.
-
Selezionare Qlik Open Lakehouse in Piattaforma dati e stabilire una connessione al catalogo dati.
-
Configurare un'area di archiviazione in Connessione di destinazione trasferimento.
-
Selezionare il cluster lakehouse di archiviazione per eseguire l'ingestione e l'ottimizzazione dei dati.
-
Fare clic su Crea per creare il progetto.
Quando si effettua l'onboarding dei dati o si crea un'attività di trasferimento nel progetto, viene creata un'attività di Trasferimento in streaming anziché un'attività di Trasferimento. Le attività di trasferimento in streaming operano e si comportano in modo simile a un'attività di trasferimento, tranne che trasferiscono i dati nell'archiviazione cloud da origini di streaming. Per ulteriori informazioni, vedere Connessione ai flussi di dati.
Tutti i file vengono trasferiti nel formato Avro. Una volta aggiornati i dati di trasferimento, l'attività di trasformazione in streaming consuma i dati di trasferimento e aggiorna le tabelle esterne.
Impostazioni
Per ulteriori informazioni sulle impostazioni delle attività, vedere Impostazioni di trasferimento su lake in streaming.