Trasferimento di dati in flusso a Qlik Open Lakehouse
È possibile trasferire i dati da una sorgente di flusso in Amazon S3, pronti per l'attività Streaming Transform per convertirli nel formato di tabella aperto Iceberg.
Il trasferimento di dati in flusso su Qlik Open Lakehouse richiede un bucket Amazon S3 preconfigurato. Qlik Open Lakehouse è specificamente ottimizzato per sorgenti dati ad alto volume e compatibile con tutte le sorgenti dati di flusso supportate da Qlik. Per maggiori informazioni sulle sorgenti di flusso supportate, vedere Connessione ai flussi di dati.
I dati non elaborati vengono inseriti in formato Avro in S3 e l'attività di trasformazione in streaming converte i dati in formato Iceberg. La specifica Iceberg consente di eseguire query sui dati da qualsiasi motore che supporti nativamente Trino SQL, ad esempio Amazon Athena, Ahana o Starburst Enterprise. Facoltativamente, le tabelle possono essere sottoposte a mirroring nel data warehouse cloud, dove possono essere interrogate senza duplicare i dati.
Preparazioni
-
Assicurarsi di aver configurato Qlik Open Lakehouse. Ciò include la creazione di un'integrazione di rete, un cluster lakehouse e connessioni di origine e di destinazione. Per ulteriori informazioni, vedere Configurazione di Qlik Open Lakehouse.
-
Per eseguire il mirroring dei dati nel tuo data warehouse cloud, è necessario prima creare un progetto Qlik Open Lakehouse per ingerire i dati e memorizzarli utilizzando il formato di tabella aperto Iceberg. È possibile aggiungere un'attività dati di mirroring dopo l'attività di trasformazione in streaming. Per ulteriori informazioni, vedere Mirroring dei dati in un data warehouse cloud..
Creare un'attività di trasferimento in streaming
Per creare un'attività di trasferimento in streaming, procedere come segue per creare prima il progetto:
-
Creare un progetto, quindi selezionare Pipeline di dati in Caso d'uso.
-
Selezionare Qlik Open Lakehouse in Piattaforma dati e stabilire una connessione al catalogo dati.
-
Configurare un'area di archiviazione in Connessione di destinazione trasferimento.
-
Fare clic su Crea per creare il progetto.
Quando si effettua l'onboarding dei dati o si crea un'attività di trasferimento nel progetto, viene creata un'attività di Trasferimento in streaming anziché un'attività di Trasferimento. Le attività di trasferimento in streaming operano e si comportano in modo simile a un'attività di trasferimento, tranne che trasferiscono i dati nell'archiviazione cloud da origini di streaming. Per ulteriori informazioni, vedere Connessione ai flussi di dati.
Tutti i file vengono trasferiti nel formato Avro. Una volta aggiornati i dati di trasferimento, l'attività di trasformazione in streaming consuma i dati di trasferimento e aggiorna le tabelle esterne.
Visualizzazione delle informazioni sull'attività
Fare clic su sulla barra dei menu per visualizzare le informazioni sull'attività, ad esempio:
-
Proprietario
-
Spazio
-
Piattaforma dati
-
ID progetto
-
ID tempo di esecuzione attività dati
Operazioni
Le seguenti operazioni sono disponibili in un'attività di trasferimento in flusso:
-
Eliminazione di una colonna
Selezionare la colonna e fare clic su Rimuovi.
Verrà aggiunta una regola di trasformazione che rimuove la colonna dai dati appena caricati dopo che l'attività è stata preparata ed eseguita. È possibile ripristinare la colonna per i nuovi record eliminando la regola di trasformazione.
-
Applicazione dell'hashing a una colonna, ad esempio per mascherare le informazioni sensibili.
Seleziona Hash nella colonna.
Verrà generato un hash SHA-256 della colonna di input dopo averla concatenata con la stringa salt hash. La stringa salt hash è un'impostazione di progetto, disponibile nei progetti Qlik Open Lakehouse.
Il tipo di dati viene modificato in Stringa quando una colonna viene sottoposta ad hashing. Se si desidera mantenere anche i dati non sottoposti ad hashing per gli utenti privilegiati, eseguire l'hashing in un secondo momento in un'attività di trasformazione.
-
Filtraggio dei dati
Per ulteriori informazioni, vedere Filtrazione di una serie di dati.
-
Rinominare un set di dati
Fare clic su
sul set di dati e selezionare Rinomina.
Impostazioni
Per ulteriori informazioni sulle impostazioni delle attività, vedere Impostazioni di trasferimento su lake in streaming.