Vai al contenuto principale Passa a contenuto complementare

Creazione di una pipeline di dati

È possibile creare una pipeline di dati per eseguire tutta l'integrazione dei dati all'interno di un progetto dati utilizzando le attività dati. L'operazione di onboarding o inserimento sposta i dati nel progetto da sorgenti dati locali o nel cloud e archivia i dati in set di dati pronti per il consumo. È possibile anche eseguire trasformazioni e creare data mart per sfruttare i set di dati generati e trasformati. La pipeline di dati può essere semplice e lineare oppure può essere una pipeline complessa che utilizza diverse sorgenti dati e genera molti output.

Tutte le attività dati verranno create nello stesso spazio del progetto dati a cui appartengono.

È possibile inoltre visualizzare la derivazione per seguire ritroso i dati e le trasformazioni dati per giungere fino alla sorgente originale, oltre ad eseguire l'analisi impatto, che mostra una visualizzazione previsionale e a valle di attività dati, set di dati o dipendenze di campo. Per ulteriori informazioni, vedere Utilizzo di derivazione e analisi impatto in Integrazione dati.

Inserimento dati

Ciò include il trasferimento dei dati in un'area di staging e quindi l'archiviazione delle serie di dati in un data warehouse cloud. Le attività dei dati di trasferimento e archiviazione vengono creati in un unico passaggio. Se necessario, è possibile eseguire il trasferimento e l'archiviazione anche con attività separate.

Registrazione di dati già presenti nella piattaforma dati

È possibile registrare i dati già esistenti sulla piattaforma dati per approfondirli e trasformarli, quindi creare data mart. Ciò consente di utilizzare i dati che sono stati inseriti con strumenti diversi da Qlik Cloud Data Integration, ad esempio, Qlik Replicate, o Stitch.

Trasformazione dei dati

Creare trasformazioni riutilizzabili a livello di riga per i dati inseriti con onboarding basate su regole ed SQL personalizzato. Ciò crea un'attività dati Trasforma.

Creazione e gestione di data mart

Permette di creare un data mart per sfruttare i propri set di dati. Ciò crea un'attività dati Data mart.

Piattaforme dati di destinazione

Il progetto dati è associato a una piattaforma dati che viene utilizzata come destinazione per tutti gli output.

Per ulteriori informazioni sulle piattaforme di dati supportate, vedere Connessione a piattaforme di destinazione.

Introduzione video ai progetti dati

Esempio di creazione di un progetto dati

L'esempio seguente esegue l'onboarding dei dati, la trasformazione dei dati e la creazione di un data mart. Ciò creerà una semplice pipeline di dati lineare che è possibile espandere integrando più sorgenti dati, creando più trasformazioni e aggiungendo le attività dati generati al data mart.

Esempio di pipeline di dati lineare in un progetto dati

  1. Fare clic su Aggiungi nuovo e quindi su Crea progetto dati nella Home Qlik Cloud Data Integration.

    1. Immettere un nome e una descrizione per il progetto dati e selezionare uno spazio in cui creare il progetto dati. Tutte le attività dati verranno create nello spazio del progetto dati a cui appartengono.

    2. Selezionare Pipeline di dati in Caso di utilizzo.
    3. Selezionare quale piattaforma dati utilizzare nel progetto.

    4. Selezionare una connessione dati al data warehouse cloud che si desidera utilizzare nel progetto. Questo verrà utilizzato per trasferire file di dati e archiviare serie di dati e viste. Se non si è già preparato una connessione dati, crearne una con Aggiungi connessione.

      Se la piattaforma dati selezionata è Google BigQuery, Databricks o Microsoft Azure Synapse Analytics, è necessario connettersi anche a un'area di staging.

    5. Se piattaforma dati selezionata è Qlik Cloud:

      È possibile archiviare i dati nell'archiviazione gestita da Qlik o nel proprio bucket S3 gestito da Amazon. Se si desidera utilizzare il bucket Amazon S3, è necessario selezionare una connessione dati a quel bucket.

      In entrambi i casi, occorre selezionare anche una connessione dati a un'area di staging di Amazon S3. Se si utilizza lo stesso bucket definito nel passaggio precedente, assicurarsi di utilizzare un'altra cartella nel bucket per lo staging.

    6. Fare clic su Crea.

      Il progetto dati viene creato ed è possibile creare la pipeline di dati aggiungendo attività dati.

  2. Fare clic su Aggiungi nuovo e poi Inserisci dati.

    Per ulteriori informazioni, vedere Inserimento dati.

    Ciò creerà un'attività per i dati di trasferimento e un'attività per i dati di archiviazione. Per iniziare a replicare i dati è necessario:

  3. Una volta creata l'attività per i dati di archiviazione, tornare al progetto dati. È ora possibile eseguire trasformazioni sulle serie di dati create.

    Fare clic su ... sull'attività dati di archiviazione e selezionare Trasforma dati per creare un'attività dati di trasformazione basata su questa attività dati di archiviazione. Per istruzioni sulle trasformazioni, vedere Trasformazione dei dati.

  4. È possibile creare un data mart basato su un'attività dati di archiviazione o su un'attività dati di trasformazione.

    Fare clic su ... sull'attività dati e selezionare Crea data mart per creare un'attività dati di data mart. Per istruzioni sulla creazione di un data mart, vedere:

    Creazione e gestione di data mart

Dopo aver eseguito il primo caricamento completo delle serie di dati e dei data mart archiviati e trasformati, è possibile utilizzarli, ad esempio, in un'app analitica. Per ulteriori informazioni sulla creazione di app di analisi, vedere Creazione di un'app di analisi usando serie di dati generate da Qlik Cloud Data Integration .

È possibile anche espandere la pipeline di dati inserendo in onboarding più sorgenti dati e combinandole nella trasformazione o nel data mart.

Operazioni in un progetto dati

È possibile eseguire le stesse operazioni disponibili per un'attività dati come operazioni di un progetto dati. Questo consente di orchestrare le operazioni in una pipeline di dati.

Nota informaticaÈ possibile eseguire solo un'operazione del progetto dati alla volta per ogni progetto dati.
  • Attivare e disattivare le pianificazioni

  • Eseguire operazioni di progettazione

  • Avviare e interrompere l'esecuzione delle attività dati

  • Eliminare attività dati

Fare clic su Operazioni per visualizzare lo stato di un'operazione in esecuzione o dell'ultima operazione eseguita.

È possibile interrompere un'operazione in esecuzione facendo clic su Interrompi operazione. Le attività dati in esecuzione non saranno interrotte, ma verrà annullata qualsiasi attività che non è stata ancora avviata.

Attivare e disattivare le pianificazioni

È possibile controllare le pianificazioni per le attività dati a livello del progetto.

  • Fare clic su ..., quindi su Pianificazione.

    È possibile attivare o disattivare la pianificazione di tutte le attività dati o di quelle selezionate. Sono visualizzate solo le attività con una pianificazione definita.

    Nota informaticaQuesta opzione non è disponibile per i progetti dati che utilizzano Qlik Cloud come piattaforma dati.

Per ulteriori informazioni sulla programmazione di singole attività dati, vedere:

Esecuzione di operazioni di progettazione

È possibile eseguire operazioni di progettazione per tutte le attività dati nel progetto dati o per quelle selezionate. Ciò consente di controllare più facilmente le attività dei set di dati nel progetto dati, anziché eseguire le operazioni di progettazione in modo individuale per ogni attività.

  • Convalida

    Fare clic su Convalida per convalidare tutte le attività o solo quelle selezionate. Vengono preselezionate le attività dati che sono state modificate dall'ultima operazione di convalida.

    Le attività dati vengono convalidate seguendo l'ordine della pipeline.

  • Prepara

    Fare clic su Prepara per preparare tutte le attività o solo quelle selezionate. Vengono preselezionate le attività dati che sono state modificate dall'ultima operazione di preparazione.

    È possibile selezionare per ricreare i set di dati che richiedono una modifica della struttura non supportata dalla piattaforma dati. Questo può portare alla perdita di dati.

  • Ricrea

    Fare clic su ..., quindi su Ricrea per ricreare i set di dati dalla sorgente per tutte le attività o solo per quelle selezionate.

Esecuzione di attività dati

È possibile avviare l'esecuzione di tutte le attività dati nel progetto dati o solo di una selezione, anziché eseguire le attività in modo individuale. Ad esempio, è possibile eseguire tutte le attività con una pianificazione basata sul tempo. Questa operazione avvia le attività a valle con una pianificazione basata sugli eventi.

  • Esegui

    Fare clic su Esegui per avviare l'esecuzione di tutte le attività o solo di quelle selezionate. Questa operazione avvia l'esecuzione di tutte le attività selezionate e viene completata non appena inizia l'esecuzione.

    È possibile selezionare tutte le attività pronte per l'esecuzione. Le attività con una pianificazione basata sul tempo e le attività che utilizzano CDC vengono preselezionate. Le attività con pianificazione basata su eventi non vengono preselezionate poiché verranno eseguite quando disporranno di dati per l'elaborazione.

    In un progetto con Qlik Cloud come piattaforma dati, tutte le attività di trasferimento e archiviazione vengono preselezionate.

    Nota informaticaTutte le attività dati vengono eseguite in parallelo. Questo significa che le verifiche di dipendenza possono impedire l'esecuzione di alcune attività.
  • Arresta

    Fare clic su Arresta per interrompere tutte le attività o solo quelle selezionate.

    È possibile selezionare tutte le attività che sono in esecuzione.

Eliminazione di attività dati

  • Fare clic su Elimina per eliminare tutte le attività dati in un progetto dati o solo quelle selezionate.

Modifica della visualizzazione di un progetto dati

Sono disponibili due visualizzazioni differenti per i progetti dati. È possibile passare da una visualizzazione all'altra facendo clic suVisualizzazione pipeline.

  • La visualizzazione pipeline mostra il flusso di dati delle attività dati.

    È possibile scegliere quali informazioni mostrare per le attività dati facendo clic su Livelli. Attivare o disattivare le seguenti informazioni:

    • Stato

    • Aggiornamento dei dati

    • Pianificazione

  • La visualizzazione a schede mostra una scheda con le informazioni sulle attività dati.

    È possibile filtrare la visualizzazione per tipo di risorsa e proprietario.

Esportazione e importazione di progetti dati

È possibile esportare un progetto dati in un file JSON che contiene tutto ciò che è necessario per ricostruire il progetto dati. Il file JSON esportato può essere importato sullo stesso tenant o su un altro tenant. È possibile usarlo, ad esempio, per spostare i progetti dati da un tenant all'altro o per eseguire copie di backup dei progetti dati.

Per ulteriori informazioni, vedere Esportazione e importazione di pipeline di dati.

Impostazioni di progetti dati

È possibile impostare proprietà comuni al progetto e a tutte le attività dati incluse.

  • Fare clic su Impostazioni.

Per ulteriori informazioni, vedere Impostazioni di progetti dati.

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!