Vai al contenuto principale Passa a contenuto complementare

Acquisizione di dati in un data warehouse

Il primo passaggio della creazione di una pipeline di dati in un progetto di Qlik Talend Data Integration è l'inserimento dei dati. Ciò comporta il trasferimento dei dati dalla sorgente dati e l'archiviazione di set di dati in formato ottimizzato per la lettura. È possibile aggiornare i dati con una continua gestione delle modifiche o utilizzando ricaricamenti pianificati.

Crei l'onboarding in un'unica operazione, ma viene eseguita in due passaggi.

  • Trasferimento dei dati

    Ciò comporta il trasferimento continuo dei dati dalla sorgente dati in loco in un'area di trasferimento, utilizzando un'attività dati di Trasferimento.

    Trasferimento dati da sorgenti dati

    È possibile anche trasferire i dati su un lakehouse, dove i dati vengono trasferiti in un'archiviazione dei file sul cloud. Questo è disponibile per i progetti Snowflake, dove la destinazione di trasferimento è impostata su Archiviazione file cloud.

    Dati di trasferimento su un lakehouse.

  • Archiviazione di set di dati

    Ciò comporta la lettura del caricamento iniziale di dati di trasferimento o dei caricamenti incrementali e l'applicazione dei dati in un formato ottimizzato per la lettura utilizzando un'attività dati di Archiviazione.

    Archiviazione di set di dati

Dopo aver eseguito l'inserimento dei dati, è possibile utilizzare i set di dati archiviati in diversi modi.

  • È possibile utilizzare i set di dati in un'app di analisi.

  • È possibile creare trasformazioni.

  • È possibile creare un data mart.

video thumbnail

Inserisci dati

Quando si inizia a inserire i dati in un progetto, i set di dati verranno archiviati nel data warehouse cloud definito nel progetto. Per ulteriori informazioni sui progetti, vedere Creazione di una pipeline di dati in un progetto.

  1. Nel progetto, fare clic su Crea e poi su Inserisci dati.

    Nota di suggerimentoÈ possibile anche fare clic su Icona Altro su una sorgente esistente nel progetto, quindi fare clic su Inserisci dati.
  2. Aggiungi Nome e Descrizione per l'inserimento.

    Fai clic su Avanti.

  3. Seleziona il collegamento sorgente.

    È possibile selezionare una connessione di origine esistente o creare una nuova connessione alla sorgente.

    Per ulteriori informazioni, vedere Configurazione di connessioni alle sorgenti dati

    Fai clic su Avanti.

  4. Seleziona i dati da caricare.

    Per ulteriori informazioni, vedere Selezione di dati.

    Fai clic su Avanti.

    Vengono visualizzate le Impostazioni, dove è possibile selezionare il metodo di aggiornamento e le impostazioni della cronologia.

  5. Selezionare il metodo che si desidera usare per aggiornare i dati in Metodo di aggiornamento:

    • Change Data Capture (CDC)

      Se i dati contengono anche tabelle che non supportano la funzione CDC o le visualizzazioni, verranno create due pipeline di dati. Una pipeline con tutte le tabelle che supportano la funzione CDC, e un'altra pipeline con tutte le altre tabelle e visualizzazioni che utilizzano Ricaricamento e confronto.

    • Ricaricamento e confronto

  6. Quando si effettua l'onboarding su Snowflake, è possibile scegliere uno dei seguenti metodi di caricamento:

    • Caricamento in blocco (impostazione predefinita)

      Se si seleziona il Caricamento in blocco, una volta creata l'attività, sarà possibile regolare i parametri di caricamento nella scheda Caricamento dati delle impostazioni dell'attività.

    • Snowpipe Streaming

      Nota informatica

      Snowpipe Streaming sarà disponibile per la selezione solo se sono soddisfatte le seguenti condizioni:

      • Il metodo di aggiornamento Change Data Capture (CDC) è abilitato.
      • Il Meccanismo di autenticazione nel connettore Snowflake è impostato su Coppia di chiavi.
      • Se si utilizza Gateway Data Movement, è richiesta la versione 2024.11.45 o una successiva.

      Se si seleziona Snowpipe Streaming, assicurarsi di comprendere le limitazioni e considerazioni quando si usa questo metodo. Inoltre, se si seleziona Snowpipe Streaming e poi si passa al metodo di aggiornamento Ricarica e confronta, il metodo di caricamento tornerà automaticamente al Caricamento in blocco.

    Le ragioni principali per scegliereSnowpipe Streaming anziché Caricamento in blocco sono elencate di seguito: 

    • Meno costoso: poiché Snowpipe Streaming non utilizza il warehouse di Snowflake, i costi operativi dovrebbero essere significativamente più bassi, anche se ciò dipenderà dal proprio caso d'uso specifico.

    • Latenza ridotta: poiché i dati vengono inviati in streaming direttamente alle tabelle di destinazione (anziché tramite lo staging), la replica dalla sorgente dati alla destinazione dovrebbe essere più veloce.

    Nota di suggerimentoQuando si utilizza Snowpipe Streaming, il caricamento completo iniziale potrebbe essere significativamente più lento del Caricamento in blocco. Per ottimizzare le prestazioni di caricamento, soprattutto quando si caricano set di dati di grandi dimensioni, la procedura consigliata è utilizzare Snowpipe Streaming insieme alla funzionalità di caricamento parallelo.
  7. Selezionare se si desidera replicare la cronologia dei dati precedenti oltre ai dati correnti in Cronologia.

    Fare clic su Avanti quando si è pronti.

  8. Se non si utilizza il Gateway Data Movement per accedere alla sorgente dati, la seguente sezione verrà visualizzata nelle impostazioni:

    • Replica dati ogni: è possibile pianificare la frequenza con cui acquisire le modifiche dalla sorgente dati e impostare Ora di inizio e Data di inizio. Se i set di dati di origine supportano il CDC (Change data capture), solo le modifiche ai dati di origine verranno replicate e applicate alle tabelle di destinazione corrispondenti. Se i set di dati di origine non supportano il CDC (ad esempio, le viste), le modifiche verranno applicate ricaricando tutti i dati di origine nelle tabelle di destinazione corrispondenti. Se alcuni dei set di dati di origine supportano il CDC e altri no, verranno create due sottoattività separate: una per ricaricare i set di dati che non supportano il CDC e l'altra per acquisire le modifiche ai set di dati che supportano il CDC.

      L'installazione guidata per il processo di onboarding consente di pianificare un intervallo orario. Una volta completata l'installazione guidata, è possibile valutare differenti opzioni di pianificazione, come descritto in Impostazioni di replica.

    Per informazioni sugli intervalli di pianificazione minimi in base al tipo di sorgente dati e i livelli di sottoscrizione, vedere Intervalli di pianificazione minimi consentiti.

  9. Visualizzare in anteprima le attività dati create per l'inserimento dei dati e rinominarle se desiderato.

    Nota di suggerimentoI nomi vengono utilizzati durante la denominazione degli schemi di database nell'attività dei dati di archiviazione. Prendere in considerazione l'utilizzo di nomi univoci per evitare conflitti con attività dati in altri progetti che utilizzano la stessa piattaforma dati.
  10. Selezionare se si desidera aprire qualsiasi attività dati creata, oppure tornare al progetto.

    Quando si è pronti, fare clic su Fine.

Le attività dati di onboarding vengono create. Per iniziare a replicare i dati è necessario:

Selezione di dati

È possibile selezionare tabelle o viste specifiche oppure utilizzare regole di selezione per includere o escludere gruppi di tabelle.

Nota informaticaSe la selezione include viste, CDC non è supportato.

Utilizzare % come carattere jolly per definire un criterio di selezione per schemi e tabelle.

  • %.% definisce tutte le tabelle in tutti gli schemi.

  • Public.% definisce tutte le tabelle nello schema Pubblico.

I criteri di selezione offrono all'utente un'anteprima in base alle selezioni personali.

Ora è possibile:

  • Creare una regola per includere o escludere un gruppo di tabelle in base ai criteri di selezione.

    Fare clic su Aggiungi regola dai criteri di selezioneper creare una regola e selezionare sia Includi sia Escludi.

    È possibile vedere la regola in Regole di selezione.

  • Selezionare uno o più set di dati e fare clic su Aggiungi set di dati selezionati.

    È possibile vedere i set di dati aggiunti in Set di dati selezionati in modo esplicito.

Le regole di selezione si applicano solo all'insieme corrente di tabelle e viste, non a tabelle e viste che verranno aggiunte in futuro.

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!