Trasferimento dei dati sul Qlik Open Lakehouse

I dati vengono trasferiti in Amazon S3, pronti per l'attività di archiviazione dei dati per convertirli nel formato di tabella aperto Iceberg. È possibile trasferire i dati da qualsiasi sorgente supportata da Qlik.

Il trasferimento dei dati su Qlik Open Lakehouse richiede un bucket Amazon S3 preconfigurato. Qlik Open Lakehouse è ottimizzato in modo specifico per le sorgenti dati di streaming ad alto volume, ed è compatibile con tutte le sorgenti dati supportate da Qlik. I dati vengono trasferiti su S3 in formato CSV. L'attività dati di archiviazione converte i dati in formato Iceberg e li copia nei file Parquet. La specifica Iceberg consente di eseguire query sui dati da qualsiasi motore che supporti nativamente Trino SQL, ad esempio Amazon Athena, Ahana o Starburst Enterprise. Facoltativamente, è possibile eseguire il mirroring delle tabelle in Redshift o Snowflake, dove possono essere interrogate senza duplicare i dati.

Il trasferimento dei dati in un Qlik Open Lakehouse è disponibile nei progetti con una connessione di destinazione di AWS Glue Data Catalog.

Preparazioni

Per eseguire il mirroring dei dati su Redshift o Snowflake, è necessario prima creare un progetto Qlik Open Lakehouse per ingerire i dati e memorizzarli utilizzando il formato di tabella aperto Iceberg. È possibile aggiungere un'attività dati di mirroring dopo l'attività dati di archiviazione. Per eseguire le trasformazioni dati, creare un progetto Redshift o Snowflake che utilizza il progetto Qlik Open Lakehouse come sorgente. Per ulteriori informazioni, vedere Mirroring dei dati in un data warehouse cloud..
Sebbene sia possibile configurare le impostazioni della connessione nell'installazione guidata dell'attività, per semplificare la procedura di configurazione, si consiglia di farlo prima di creare l'attività.

Creare un'attività di trasferimento su data lake

Per creare un'attività di trasferimento su data lake, fare quanto segue:

Creare un progetto, quindi selezionare Pipeline di dati in Caso d'uso.
Selezionare Qlik Open Lakehouse in Piattaforma dati e stabilire una connessione al catalogo dati.
Configurare un'area di archiviazione in Connessione di destinazione trasferimento.
Fare clic su Crea per creare il progetto.

Quando si effettua l'onboarding dei dati o si crea un'attività di trasferimento nel progetto, viene creata un'attività di Trasferimento su lake anziché un'attività di Trasferimento. Le attività di Trasferimento su lake funzionano e si comportano per lo più come le attività di Trasferimento, tranne per il fatto che trasferiscono i dati nell'archiviazione cloud. Per ulteriori informazioni, vedere Trasferimento dati da sorgenti dati.

Tutti i file vengono trasferiti nel formato CSV. Una volta aggiornati i dati di trasferimento, l'attività di archiviazione che consuma l'attività di trasferimento aggiorna le tabelle esterne.

Impostazioni

Per ulteriori informazioni sulle impostazioni delle attività, vedere Impostazioni di trasferimento su data lake.

Limitazioni

I dati trasferiti non vengono partizionati nel bucket a causa dell'attività di archiviazione in esecuzione ogni minuto. Pertanto, la frequenza della partizione dei dati non può essere aggiornata nelle impostazioni dell'attività.
Sebbene il trasferimento dei dati dalle sorgenti SaaS sia pianificato, l'attività di archiviazione esegue batch ridotti ogni minuto. Per farlo, è richiesto un cluster lakehouse a costi minimi.
Se il valore di una Chiave primaria cambia, i record con la chiave originale sono contrassegnati come Eliminati, mentre la riga contenente il valore della chiave modificata è contrassegnata come Inserisci.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback