Trasferimento di dati in streaming su Qlik Open Lakehouse | Guida di Qlik Cloud
Vai al contenuto principale Passa a contenuto complementare

Trasferimento di dati in streaming su Qlik Open Lakehouse

È possibile trasferire dati da una sorgente di streaming in Amazon S3, pronti per l'attività Streaming Transform per convertirli nel formato di tabella aperta Iceberg.

Il trasferimento di dati in streaming su un Qlik Open Lakehouse richiede un bucket Amazon S3 preconfigurato. Qlik Open Lakehouse è specificamente ottimizzato per sorgenti dati ad alto volume ed è compatibile con tutte le sorgenti dati in streaming supportate da Qlik. Per ulteriori informazioni sulle sorgenti di streaming supportate, vedere Connessione ai flussi di dati.

I dati grezzi vengono trasferiti in formato Avro in S3 e l'attività Streaming Transform converte i dati nel formato Iceberg. La specifica Iceberg consente di interrogare i dati da qualsiasi motore che supporti nativamente Trino SQL, ad esempio Amazon Athena, Ahana o Starburst Enterprise. Facoltativamente, le tabelle possono essere sottoposte a mirroring nel proprio data warehouse cloud, dove possono essere interrogate senza duplicare i dati.

Preparativi

  • Assicurarsi di aver configurato Qlik Open Lakehouse. Ciò include la creazione di un'integrazione di rete, di un cluster lakehouse e di connessioni di origine e di destinazione. Per ulteriori informazioni, vedere Configurazione di Qlik Open Lakehouse.

  • Per eseguire il mirroring dei dati nel proprio data warehouse cloud, è necessario prima creare un progetto Qlik Open Lakehouse per acquisire i dati e archiviarli utilizzando il formato di tabella aperta Iceberg. È possibile aggiungere un'attività Mirror data (Esegui mirroring dei dati) dopo l'attività Streaming Transformation. Per ulteriori informazioni, vedere Mirroring dei dati in un data warehouse cloud.

Creazione di un'attività di trasferimento in streaming

Per creare un'attività di trasferimento in streaming, procedere come segue per creare prima il progetto:

  1. Creare un progetto e selezionare Pipeline di dati in Caso d'uso.

  2. Selezionare Qlik Open Lakehouse in Piattaforma dati e stabilire una connessione al catalogo dati.

  3. Configurare un'area di archiviazione in Connessione di destinazione del trasferimento.

  4. Fare clic su Crea per creare il progetto.

Quando si esegue l'onboarding dei dati o si crea un'attività di trasferimento nel progetto, viene creata un'attività Trasferimento in streaming anziché un'attività Trasferimento. Le attività Trasferimento in streaming operano e si comportano in modo simile a un'attività Trasferimento, tranne per il fatto che trasferiscono i dati nell'archiviazione cloud da sorgenti di streaming. Per ulteriori informazioni, vedere Connessione ai flussi di dati.

Tutti i file vengono trasferiti in formato Avro. Dopo l'aggiornamento dei dati di trasferimento, l'attività Streaming Transformation consuma i dati di trasferimento e aggiorna le tabelle esterne.

Visualizzazione delle informazioni sull'attività

Fare clic su Informazioni sulla barra dei menu per visualizzare le informazioni sull'attività, ad esempio:

  • Proprietario

  • Spazio

  • Piattaforma dati

  • ID progetto

  • ID tempo di esecuzione attività dati

Operazioni

Le seguenti operazioni sono disponibili in un'attività di trasferimento in streaming:

  • Eliminazione di una colonna

    Selezionare la colonna e fare clic su Rimuovi.

    Ciò aggiungerà una regola di trasformazione che rimuove la colonna dai dati appena caricati dopo che l'attività è stata preparata ed eseguita. È possibile ripristinare la colonna per i nuovi record eliminando la regola di trasformazione.

  • Hashing di una colonna, ad esempio per mascherare informazioni sensibili.

    Selezionare Hash nella colonna.

    Ciò genererà un hash SHA-256 della colonna di input dopo averla concatenata con una stringa salt di hash. È possibile impostare la stringa salt di hash nelle impostazioni del progetto in Metadati > Hash. Questa impostazione è disponibile solo nei progetti Qlik Open Lakehouse. Per ulteriori informazioni, vedere Metadati

    Il tipo di dati viene modificato in Stringa quando viene eseguito l'hashing di una colonna. Se si desidera conservare anche i dati non sottoposti a hash per gli utenti privilegiati, eseguire l'hash in un secondo momento in un'attività Transform (Trasforma).

  • Filtro dei dati

    Per ulteriori informazioni, vedere Filtrazione di una serie di dati.

  • Ridenominazione di un set di dati

    Fare clic su Altro sul set di dati e selezionare Rinomina.

Eliminazione di un'attività

È possibile eliminare l'attività di dati se non è in esecuzione e non ci sono dipendenze da attività downstream nello stesso progetto.

  • Nella vista Progetto pipeline del progetto, fare clic su Altro su un'attività e selezionare Elimina.

Anche gli artefatti (tabelle e viste) creati dall'attività verranno eliminati, a meno che non si scelga di mantenerli.

Nota informaticaTenere presente che gli artefatti che si scelgono di mantenere non verranno più aggiornati dall'attività.

Impostazioni

Per ulteriori informazioni sulle impostazioni dell'attività, vedere Impostazioni di trasferimento su lake in streaming

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!