Creazione di una pipeline di dati
È possibile creare una pipeline di dati per eseguire tutta l'integrazione dei dati all'interno di un progetto utilizzando le attività dati. L'operazione di onboarding o inserimento sposta i dati nel progetto da sorgenti dati locali o nel cloud e archivia i dati in set di dati pronti per il consumo. È possibile anche eseguire trasformazioni e creare data mart per sfruttare i set di dati generati e trasformati. La pipeline di dati può esseree semplice e lineare oppure può esseree una pipeline complessa che utilizza diverse sorgenti dati e genera molti output.
Tutte le attività dati verranno create nello stesso spazio del progetto a cui appartengono.
È possibile inoltre visualizzare la derivazione per seguire ritroso i dati e le trasformazioni dati per giungere fino alla sorgente originale, oltre ad eseguire l'analisi impatto, che mostra una visualizzazione previsionale e a valle di attività dati, set di dati o dipendenze di campo. Per ulteriori informazioni, vedere Utilizzo di derivazione e analisi impatto in Integrazione dati.
Inserimento dati
Ciò include il trasferimento dei dati in un'area di staging e quindi l'archiviazione delle serie di dati in un data warehouse cloud. Le attività dei dati di trasferimento e archiviazione vengono creati in un unico passaggio. Se necessario, è possibile eseguire il trasferimento e l'archiviazione anche con attività separate.
Registrazione di dati già presenti nella piattaforma dati
È possibile registrare i dati già esistenti sulla piattaforma dati per approfondirli e trasformarli, quindi creare data mart. Ciò consente di utilizzare i dati che sono stati inseriti con strumenti diversi da Qlik Talend Data Integration, come ad esempio Qlik Replicate o Stitch.
Trasformazione di dati
Creare trasformazioni riutilizzabili a livello di riga per i dati inseriti con onboarding basate su regole ed SQL personalizzato. Ciò crea un'attività dati Trasforma.
Creazione e gestione di data mart
Permette di creare un data mart per sfruttare i propri set di dati. Ciò crea un'attività dati Data mart.
Piattaforme dati di destinazione
Il progetto è associato a una piattaforma dati che viene utilizzata come destinazione per tutti gli output.
Per ulteriori informazioni sulle piattaforme di dati supportate, vedere Configurazione delle connessioni alle destinazioni.
Introduzione video ai progetti

Esempio di creazione di un progetto
L'esempio seguente esegue l'onboarding dei dati, la trasformazione dei dati e la creazione di un data mart. Ciò creerà una semplice pipeline di dati lineare che è possibile espandere integrando più sorgenti dati, creando più trasformazioni e aggiungendo le attività dati generati al data mart.
Esempio di pipeline di dati lineare in un progetto
-
Creare un nuovo progetto.
In Integrazione dati > Progetti, fare clic su Crea nuovo > Progetto.
-
Immettere un nome e una descrizione per il progetto e selezionare uno spazio in cui crearlo. Tutte le attività dati verranno create nello spazio del progetto a cui appartengono.
Nota informaticaSe in seguito si attiva il controllo della versione per il progetto, non sarà possibile cambiare il nome mentre è attivo il controllo della versione. - Selezionare Pipeline di dati in Caso di utilizzo.
-
Selezionare quale piattaforma dati utilizzare nel progetto.
-
Selezionare una connessione al data warehouse cloud che si desidera utilizzare nel progetto. Questo verrà utilizzato per trasferire file di dati e archiviare serie di dati e viste. Se non è stata già preparata una connessione, crearne una con Aggiungi connessione.
Se la piattaforma dati selezionata è Google BigQuery, Databricks o Microsoft Azure Synapse Analytics, è necessario connettersi anche a un'area di staging.
-
Se piattaforma dati selezionata è Qlik Cloud:
È possibile archiviare i dati nell'archiviazione gestita da Qlik o nel proprio bucket S3 gestito da Amazon. Se si desidera utilizzare il bucket Amazon S3, è necessario selezionare una connessione a quel bucket.
In entrambi i casi, occorre selezionare anche una connessione a un'area di staging di Amazon S3. Se si utilizza lo stesso bucket definito nel passaggio precedente, assicurarsi di utilizzare un'altra cartella nel bucket per lo staging.
-
Fare clic su Crea.
Il progetto viene creato ed è possibile creare la pipeline di dati aggiungendo attività dati.
-
-
Inserire i dati
Nel progetto, fare clic su Crea e poi su Inserisci dati.
Per ulteriori informazioni, vedere Inserimento dati.
Ciò creerà un'attività per i dati di trasferimento e un'attività per i dati di archiviazione. Per iniziare a replicare i dati è necessario:
-
Preparare ed eseguire l'attività per i dati di trasferimento.
Per ulteriori informazioni, vedere Trasferimento dati da sorgenti dati.
-
Preparare ed eseguire l'attività per i dati di archiviazione.
Per ulteriori informazioni, vedere Archiviazione di set di dati.
-
-
Trasformazione dei dati
Una volta creata l'attività per i dati di archiviazione, tornare al progetto. È ora possibile eseguire trasformazioni sulle serie di dati create.
Fare clic su ... sull'attività dati di archiviazione e selezionare Trasforma dati per creare un'attività dati di trasformazione basata su questa attività dati di archiviazione. Per istruzioni sulle trasformazioni, vedere Trasformazione di dati.
-
Creazione di un data mart
È possibile creare un data mart basato su un'attività dati di archiviazione o su un'attività dati di trasformazione.
Fare clic su ... sull'attività dati e selezionare Crea data mart per creare un'attività dati di data mart. Per istruzioni sulla creazione di un data mart, vedere:
Dopo aver eseguito il primo caricamento completo delle serie di dati e dei data mart archiviati e trasformati, è possibile utilizzarli, ad esempio, in un'app analitica. Per ulteriori informazioni sulla creazione di app di analisi, vedere Creazione di un'app di analisi usando serie di dati generate da Qlik Talend Data Integration .
È possibile anche espandere la pipeline di dati inserendo in onboarding più sorgenti dati e combinandole nella trasformazione o nel data mart.
Creazione di pipeline con progetti multipli
È possibile creare pipeline con progetti multipli in cui un'attività può utilizzare attività di un altro progetto. Questo permette di realizzare la segmentazione in diversi modi possibili:
-
È possibile creare una pipeline separata per lo spostamento dei dati per ogni unità organizzativa e utilizzare i risultati nella pipeline di un unico data mart.
-
È possibile creare una singola pipeline per la trasformazione dei dati e utilizzare l'output in diverse pipeline di trasformazione.
Le attività Trasforma e Data mart possono consumare le attività Archiviazione e Trasforma di un altro progetto.
-
È necessario disporre almeno del ruolo È possibile consumare nello spazio del progetto utilizzato.
-
Entrambi i progetti devono essere sulla stessa piattaforma dati.
Tutti i set di dati di un'attività vengono condivisi con i progetti a valle. Ciò significa che se si desidera ottenere la segregazione dei set di dati, è necessario filtrare i set di dati nel progetto utilizzato, creando un'attività di trasformazione.
Nella vista Progetti, è possibile visualizzare le attività che vengono utilizzate da un altro progetto e le attività di altri progetti che vengono utilizzate nel progetto corrente. Tutte le attività che non appartengono al progetto corrente vengono visualizzate in grigio. Le dipendenze categorizzate per riferimento e non per nome, il che significa che è possibile rinominare un'attività senza interrompere il riferimento. Questo significa anche che se si elimina un'attività utilizzata e si crea una nuova attività con lo stesso nome, il riferimento continuerà a essere interrotto.
Ci sono diversi modi per riutilizzare i dati esistenti:
-
Creazione di un nuovo progetto
Selezionare l'opzione Usa i dati di un altro progetto dopo aver creato un progetto.
È possibile creare una trasformazione o data mart, utilizzando i dati inseriti da un'altra pipeline.
-
In un'attività Trasforma o in un'attività Data mart, è possibile selezionare i dati da un altro progetto in Seleziona dati di origine.
Quando si selezionano i dati di origine, selezionare Progetto e poi Attività dati per visualizzare i set di dati disponibili.
È possibile scegliere se visualizzare le attività in altri progetti che utilizzano un'attività in questo progetto.
-
Fare clic su Livelli e attivare o disattivare l'opzione Output tra progetti.
Tutte le attività che non appartengono al progetto corrente vengono visualizzate in grigio.
Limitazioni del controllo delle versioni
Dato che le pipeline con progetti multipli sono suddivise tra diversi progetti, le operazioni diventano più complesse se si utilizza il controllo delle versioni. In questi esempi, il Progetto1 è consumato dal Progetto2.
Esempio di una pipeline con progetti multipli

-
Il Progetto2 può utilizzare solo il ramo principale del Progetto1, ma lo stesso Progetto2 può trovarsi su un ramo diverso.
-
È possibile creare un ramo per il Progetto1, ma la versione con rami non mostrerà che è utilizzata dal Progetto2.
-
È possibile unire il Progetto2 a quello principale, ma la dipendenza continuerà ad esistere.
Procedure consigliate
-
Verificare che le attività del progetto utilizzato siano almeno preparate, per assicurarsi che siano valide.
-
Evitare di progettare pipeline che creino un ciclo o dipendenze reciproche tra i progetti.
-
Se si intende esportare e importare progetti tra tenant diversi, sarà più facile se si mantengono gli stessi nomi per gli spazi e i progetti nei tenant. Se i nomi sono diversi, sarà necessario mappare i progetti e le attività al momento dell'importazione del progetto.
-
Se si desidera cambiare la piattaforma dati utilizzando l'esportazione e l'importazione, tutti i progetti con dipendenze devono essere sulla stessa piattaforma.
Per cambiare la piattaforma in modo facile e sicuro, seguire i seguenti passaggi. In questo esempio, il progetto utilizzato si chiama Consumed (Consumato) e il progetto che legge da Consumed si chiama Consumer (Consumatore).
-
Esportare Consumed e Consumer.
-
Importare Consumed in Consumed_New, passando alla nuova piattaforma dati.
-
Importare Consumer in Consumer_New, passando alla stessa piattaforma dati di Consumed_New e sostituendo il progetto di origine (Consumed) con Consumed_New.
-
Operazioni nel progetto di una pipeline dati
È possibile eseguire le stesse operazioni disponibili per un'attività dati come operazioni di un progetto. Questo consente di orchestrare le operazioni in una pipeline di dati.
-
Attivare e disattivare le pianificazioni
-
Eseguire operazioni di progettazione
-
Avviare e interrompere l'esecuzione delle attività dati
-
Eliminare attività dati
Fare clic su Operazioni per visualizzare lo stato di un'operazione in esecuzione o dell'ultima operazione eseguita.
È possibile interrompere un'operazione in esecuzione facendo clic su Interrompi operazione. Le attività dati in esecuzione non saranno interrotte, ma verrà annullata qualsiasi attività che non è stata ancora avviata.
Attivare e disattivare le pianificazioni
È possibile controllare le pianificazioni per le attività dati a livello del progetto.
-
Fare clic su ..., quindi su Pianificazione.
È possibile attivare o disattivare la pianificazione di tutte le attività dati o di quelle selezionate. Sono visualizzate solo le attività con una pianificazione definita.
Nota informaticaQuesta opzione non è disponibile per i progetti che utilizzano Qlik Cloud come piattaforma dati.
Per ulteriori informazioni sulla programmazione di singole attività dati, vedere:
Esecuzione di operazioni di progettazione
È possibile eseguire operazioni di progettazione per tutte le attività dati nel progetto o per quelle selezionate. Ciò consente di controllare più facilmente le attività dei set di dati nel progetto, anziché eseguire le operazioni di progettazione in modo individuale in ogni attività.
-
Convalida
Fare clic su Convalida per convalidare tutte le attività o solo quelle selezionate. Vengono preselezionate le attività dati che sono state modificate dall'ultima operazione di convalida.
Le attività dati vengono convalidate seguendo l'ordine della pipeline.
-
Prepara
Fare clic su Prepara per preparare tutte le attività o solo quelle selezionate. Vengono preselezionate le attività dati che sono state modificate dall'ultima operazione di preparazione.
È possibile selezionare per ricreare i set di dati che richiedono una modifica della struttura non supportata dalla piattaforma dati. Questo può portare alla perdita di dati.
-
Ricrea
Fare clic su ..., quindi su Ricrea per ricreare i set di dati dalla sorgente per tutte le attività o solo per quelle selezionate.
Esecuzione di attività dati
È possibile avviare l'esecuzione di tutte le attività dati nel progetto o solo di una selezione, anziché eseguire le attività in modo individuale. Ad esempio, è possibile eseguire tutte le attività con una pianificazione basata sul tempo. Questa operazione avvia le attività a valle con una pianificazione basata sugli eventi.
-
Esegui
Fare clic su Esegui per avviare l'esecuzione di tutte le attività o solo di quelle selezionate. Questa operazione avvia l'esecuzione di tutte le attività selezionate e viene completata non appena inizia l'esecuzione.
È possibile selezionare tutte le attività pronte per l'esecuzione. Le attività con una pianificazione basata sul tempo e le attività che utilizzano CDC vengono preselezionate. Le attività con pianificazione basata su eventi non vengono preselezionate poiché verranno eseguite quando disporranno di dati per l'elaborazione.
In un progetto con Qlik Cloud come piattaforma dati, tutte le attività di trasferimento e archiviazione vengono preselezionate.
Nota informaticaTutte le attività dati vengono eseguite in parallelo. Questo significa che le verifiche di dipendenza possono impedire l'esecuzione di alcune attività. -
Arresta
Fare clic su Arresta per interrompere tutte le attività o solo quelle selezionate.
È possibile selezionare tutte le attività che sono in esecuzione.
Eliminazione di attività dati
-
Fare clic su Elimina per eliminare tutte le attività dati in un progetto o solo quelle selezionate.
Modifica della visualizzazione di un progetto
Sono disponibili due visualizzazioni differenti per i progetti. È possibile passare da una visualizzazione all'altra facendo clic suVisualizzazione pipeline.
-
La visualizzazione pipeline mostra il flusso di dati delle attività dati.
È possibile scegliere quali informazioni mostrare per le attività dati facendo clic su Livelli. Attivare o disattivare le seguenti informazioni:
-
Stato
-
Aggiornamento dei dati
-
Pianificazione
-
Output tra progetti
In questo modo è possibile visualizzare le attività in altri progetti che utilizzano un'attività in questo progetto. Tutte le attività che non appartengono al progetto corrente vengono visualizzate in grigio.
-
-
La visualizzazione a schede mostra una scheda con le informazioni sulle attività dati.
È possibile filtrare la visualizzazione per tipo di risorsa e proprietario.
Visualizzazione di dati
È possibile visualizzare un campione dei dati per verificare e convalidare il modello dati, poiché si sta definendo la pipeline di dati.
Sono necessarie le seguenti autorizzazioni:
-
La visualizzazione dei dati è abilitata a livello tenant in Amministrazione.
Abilitare Impostazioni > Controllo funzione > Visualizzazione dei dati in Integrazione dati.
-
Si dispone del ruolo È possibile visualizzare i dati per lo spazio in cui risiede la connessione.
-
Si dispone del ruolo È possibile visualizzare per lo spazio in cui risiede il progetto.
Per visualizzare i dati campione nella vista della pipeline di dati:
-
Fare clic su
nel banner di anteprima in fondo alla vista pipeline.
-
Selezionare l'attività di dati da visualizzare in anteprima.
Viene visualizzato un campione dei dati. È possibile impostare il numero di righe che si desidera includere nel campione nell'opzione Numero di righe.
Esportazione e importazione di progetti
È possibile esportare un progetto in un file JSON che contiene tutto ciò che è necessario per ricostruire il progetto. Il file JSON esportato può esseree importato sullo stesso tenant o su un altro tenant. È possibile utilizzarlo, ad esempio, per spostare i progetti da un tenant all'altro o per eseguire copie di backup dei progetti.
Per ulteriori informazioni, vedere Esportazione e importazione di pipeline di dati.
Modifica del proprietario di un progetto
Le attività dati operano nel contesto del proprietario del progetto a cui appartengono. È possibile cambiare il proprietario di un progetto per trasferire il controllo di tutte le attività nel progetto dati a un altro utente. Questa funzionalità è utile, ad esempio, se ci sono progetti di proprietà di un utente che è stato eliminato.
-
Nella vista del progetto, fare clic su ... e poi su Cambia proprietario.
Il cambio di proprietà si applicherà a tutte le attività del progetto. Anche tutti i set di dati catalogati creati dalle attività del progetto cambieranno proprietario.
Impostazioni del progetto
È possibile impostare proprietà comuni al progetto e a tutte le attività dati incluse.
-
Fare clic su Impostazioni.
Per ulteriori informazioni, vedere Impostazioni per i progetti di pipeline di dati.