Inserimento dati

Il primo passaggio della creazione di una pipeline di dati in un progetto di Qlik Open Lakehouse è l'inserimento dei dati. Il processo comporta il trasferimento dei dati dalla sorgente e l'archiviazione di set di dati in tabelle Iceberg ottimizzate. Le modifiche provenienti dalle sorgenti dati vengono applicate continuamente alle tabelle di archiviazione con un processo efficiente in batch di piccole dimensioni.

L'onboarding viene creato in un'unica operazione, ma viene eseguito in due passaggi.

Trasferimento dei dati

Ciò comporta il trasferimento continuo dei dati dalla sorgente dati in loco in un'area di trasferimento, utilizzando un'attività dati di Trasferimento.

Trasferimento dati da sorgenti dati

È possibile anche trasferire i dati su un lakehouse, dove i dati vengono trasferiti in un'archiviazione dei file S3.

Trasferimento dei dati sul Qlik Open Lakehouse
Archiviazione di set di dati

Ciò comporta la lettura del caricamento iniziale di dati di trasferimento o dei caricamenti incrementali e l'applicazione dei dati in un formato ottimizzato per la lettura utilizzando un'attività dati di Archiviazione.

Archiviazione di set di dati

Dopo aver eseguito l'inserimento dei dati, è possibile utilizzare i set di dati archiviati in diversi modi.

È possibile utilizzare i set di dati in un'app di analisi.
È possibile eseguire il mirroring dei dati su Redshift o Snowflake aggiungendo un'attività dati di mirroring direttamente all'attività dati di archiviazione.
È possibile trasformare i dati in Redshift o Snowflake creando una pipeline tra progetti che consuma i dati dal progetto di onboarding.

Inserisci dati

Quando si inizia a inserire i dati in un progetto, I set di dati sono archiviati nella posizione S3 definita nel progetto. Per ulteriori informazioni sui progetti, vedere Creazione di una pipeline di dati in un progetto.

Nel progetto, fare clic su Crea e poi su Inserisci dati.

Nota di suggerimentoÈ possibile anche fare clic su su una sorgente esistente nel progetto, quindi fare clic su Inserisci dati.
Aggiungi Nome e Descrizione per l'inserimento.

Fare clic su Avanti.
Seleziona il collegamento sorgente.

È possibile selezionare una connessione di origine esistente o creare una nuova connessione alla sorgente.

Per ulteriori informazioni, vedere Configurazione di connessioni alle sorgenti dati.

Fare clic su Avanti.
Seleziona i dati da caricare.

Per ulteriori informazioni, vedere Selezione di dati.

Fare clic su Avanti.

Vengono visualizzate le Impostazioni, dove è possibile selezionare il metodo di aggiornamento e le impostazioni della cronologia.
Selezionare il metodo che si desidera usare per aggiornare i dati in Metodo di aggiornamento:
- Change Data Capture (CDC)
  
  Se i dati contengono tabelle che non supportano il CDC o le viste, verranno create due pipeline di dati: una pipeline con tutte le tabelle che supportano la funzione CDC, e un'altra pipeline con tutte le altre tabelle e visualizzazioni che utilizzano Ricaricamento e confronto.
- Ricaricamento e confronto
Selezionare se si desidera replicare la cronologia dei dati precedenti oltre ai dati correnti in Cronologia.
Fare clic su Avanti quando si è pronti.
Visualizzare in anteprima le attività dati create per l'inserimento dei dati e rinominarle se desiderato.

Nota di suggerimentoI nomi vengono utilizzati durante la denominazione degli schemi di database nell'attività dei dati di archiviazione. Prendere in considerazione l'utilizzo di nomi univoci per evitare conflitti con attività dati in altri progetti che utilizzano la stessa piattaforma dati.
Selezionare se si desidera aprire qualsiasi attività dati creata, oppure tornare al progetto.

Quando si è pronti, fare clic su Fine.
Le attività dati di onboarding vengono create. Per iniziare a replicare i dati è necessario:
Preparare ed eseguire l'attività per i dati di trasferimento.

Per ulteriori informazioni, vedere Trasferimento dati da sorgenti dati.
Preparare ed eseguire l'attività dati di archiviazione.

Per ulteriori informazioni, vedere Archiviazione di set di dati.

Selezione di dati

È possibile selezionare tabelle o viste specifiche oppure utilizzare regole di selezione per includere o escludere gruppi di tabelle.

Se la selezione include viste, CDC non è supportato.

Utilizzare % come carattere jolly per definire un criterio di selezione per schemi e tabelle.

%.% definisce tutte le tabelle in tutti gli schemi.
Public.% definisce tutte le tabelle nello schema Pubblico.

I criteri di selezione offrono all'utente un'anteprima in base alle selezioni personali.

Ora è possibile:

Creare una regola per includere o escludere un gruppo di tabelle in base ai criteri di selezione.

Fare clic su Aggiungi regola dai criteri di selezioneper creare una regola e selezionare sia Includi sia Escludi.

È possibile vedere la regola in Regole di selezione.
Selezionare uno o più set di dati e fare clic su Aggiungi set di dati selezionati.

È possibile vedere i set di dati aggiunti in Set di dati selezionati in modo esplicito.

Le regole di selezione si applicano solo all'insieme corrente di tabelle e viste, non a tabelle e viste che verranno aggiunte in futuro.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback