Vai al contenuto principale Passa a contenuto complementare

Inserimento dati

Il primo passaggio della creazione di una pipeline di dati in un progetto di Qlik Open Lakehouse è l'inserimento dei dati. Il processo comporta il trasferimento dei dati dalla sorgente e l'archiviazione di set di dati in tabelle Iceberg ottimizzate.

L'onboarding viene creato in un'unica operazione, ma viene eseguito in due passaggi. Il tipo di sorgente dati, CDC o in flusso, determina le attività nel progetto:

Sorgenti CDC

  • Trasferimento dei dati

    Ciò comporta il trasferimento dei dati in mini-batch continui dalla sorgente dati in loco a un'area di trasferimento, utilizzando un'attività dati di Trasferimento.

    Trasferimento dati da sorgenti dati

    È possibile anche trasferire i dati su un lakehouse, dove i dati vengono trasferiti in un'archiviazione dei file S3.

    Trasferimento dei dati sul Qlik Open Lakehouse

  • Archiviazione di set di dati

    Ciò comporta la lettura del caricamento iniziale di dati di trasferimento o dei caricamenti incrementali e l'applicazione dei dati in un formato ottimizzato per la lettura utilizzando un'attività dati di Archiviazione.

    Archiviazione di set di dati

Sorgenti in flusso

  • Trasferimento dei dati

    Ciò comporta il flusso continuo dei dati dalla sorgente a un'area di trasferimento, utilizzando un'attività dati di Trasferimento in flusso.

    Trasferimento di dati in flusso a Qlik Open Lakehouse

  • Archiviazione di set di dati

    Ciò comporta la lettura del caricamento iniziale di dati di trasferimento e l'applicazione dei dati in un formato ottimizzato per la lettura utilizzando un'attività dati di Archiviazione Trasforma dati.

    Archiviazione di set di dati in flusso

Utilizzo dei dati inseriti

Dopo aver eseguito l'inserimento dei dati, è possibile utilizzare i set di dati archiviati in diversi modi, tra cui:

  • È possibile utilizzare i set di dati in un'applicazione di analisi.

  • È possibile eseguire il mirroring dei dati in uno o più data warehouse cloud, inclusi Amazon Redshift e Snowflake, aggiungendo un'attività dati Mirror direttamente all'attività dati di Archiviazione per le origini CDC o l'attività di Trasformazione streaming per le origini di flusso.

    Per ulteriori informazioni, vedere Mirroring dei dati in un data warehouse cloud..

  • È possibile trasformare i dati nel tuo data warehouse cloud creando una pipeline tra progetti che consuma i dati dal tuo progetto di onboarding.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!