Inserimento dati
Il primo passaggio della creazione di una pipeline di dati in un progetto di Qlik Open Lakehouse è l'inserimento dei dati. Il processo comporta il trasferimento dei dati dalla sorgente e l'archiviazione di set di dati in tabelle Iceberg ottimizzate.
L'onboarding viene creato in un'unica operazione, ma viene eseguito in due passaggi. Il tipo di sorgente dati, CDC o in flusso, determina le attività nel progetto:
Sorgenti CDC
-
Trasferimento dei dati
Ciò comporta il trasferimento dei dati in mini-batch continui dalla sorgente dati in loco a un'area di trasferimento, utilizzando un'attività dati di Trasferimento.
Trasferimento dati da sorgenti dati
È possibile anche trasferire i dati su un lakehouse, dove i dati vengono trasferiti in un'archiviazione dei file S3.
-
Archiviazione di set di dati
Ciò comporta la lettura del caricamento iniziale di dati di trasferimento o dei caricamenti incrementali e l'applicazione dei dati in un formato ottimizzato per la lettura utilizzando un'attività dati di Archiviazione.
Sorgenti in flusso
-
Trasferimento dei dati
Ciò comporta il flusso continuo dei dati dalla sorgente a un'area di trasferimento, utilizzando un'attività dati di Trasferimento in flusso.
-
Archiviazione di set di dati
Ciò comporta la lettura del caricamento iniziale di dati di trasferimento e l'applicazione dei dati in un formato ottimizzato per la lettura utilizzando un'attività dati di Archiviazione Trasforma dati.
Utilizzo dei dati inseriti
Dopo aver eseguito l'inserimento dei dati, è possibile utilizzare i set di dati archiviati in diversi modi, tra cui:
-
È possibile utilizzare i set di dati in un'applicazione di analisi.
-
È possibile eseguire il mirroring dei dati in uno o più data warehouse cloud, inclusi Amazon Redshift e Snowflake, aggiungendo un'attività dati Mirror direttamente all'attività dati di Archiviazione per le origini CDC o l'attività di Trasformazione streaming per le origini di flusso.
Per ulteriori informazioni, vedere Mirroring dei dati in un data warehouse cloud..
-
È possibile trasformare i dati nel tuo data warehouse cloud creando una pipeline tra progetti che consuma i dati dal tuo progetto di onboarding.