Creazione di una pipeline di dati
È possibile creare una pipeline di dati per eseguire tutta l'integrazione dei dati all'interno di un progetto utilizzando le attività dati. L'operazione di onboarding o inserimento sposta i dati nel progetto da sorgenti dati locali o nel cloud e archivia i dati in set di dati pronti per il consumo. È possibile anche eseguire trasformazioni e creare data mart per sfruttare i set di dati generati e trasformati. La pipeline di dati può essere semplice e lineare oppure può essere una pipeline complessa che utilizza diverse sorgenti dati e genera molti output.
Tutte le attività dati verranno create nello stesso spazio del progetto a cui appartengono.
È possibile inoltre visualizzare la derivazione per seguire ritroso i dati e le trasformazioni dati per giungere fino alla sorgente originale, oltre ad eseguire l'analisi impatto, che mostra una visualizzazione previsionale e a valle di attività dati, set di dati o dipendenze di campo. Per ulteriori informazioni, vedere Utilizzo di derivazione e analisi impatto in Integrazione dati.
Inserimento dati
Ciò include il trasferimento dei dati in un'area di staging e quindi l'archiviazione delle serie di dati in un data warehouse cloud. Le attività dei dati di trasferimento e archiviazione vengono creati in un unico passaggio. Se necessario, è possibile eseguire il trasferimento e l'archiviazione anche con attività separate.
Registrazione di dati già presenti nella piattaforma dati
È possibile registrare i dati già esistenti sulla piattaforma dati per approfondirli e trasformarli, quindi creare data mart. Ciò consente di utilizzare i dati che sono stati inseriti con strumenti diversi da Qlik Talend Data Integration, ad esempio, Qlik Replicate, o Stitch.
Trasformazione di dati
Creare trasformazioni riutilizzabili a livello di riga per i dati inseriti con onboarding basate su regole ed SQL personalizzato. Ciò crea un'attività dati Trasforma.
Creazione e gestione di data mart
Permette di creare un data mart per sfruttare i propri set di dati. Ciò crea un'attività dati Data mart.
Piattaforme dati di destinazione
Il progetto è associato a una piattaforma dati che viene utilizzata come destinazione per tutti gli output.
Per ulteriori informazioni sulle piattaforme di dati supportate, vedere Configurazione delle connessioni alle destinazioni.
Introduzione video ai progetti
Esempio di creazione di un progetto
L'esempio seguente esegue l'onboarding dei dati, la trasformazione dei dati e la creazione di un data mart. Ciò creerà una semplice pipeline di dati lineare che è possibile espandere integrando più sorgenti dati, creando più trasformazioni e aggiungendo le attività dati generati al data mart.
-
Creare un nuovo progetto.
In Integrazione dati > Progetti, fare clic su Crea progetto.
-
Immettere un nome e una descrizione per il progetto e selezionare uno spazio in cui crearlo. Tutte le attività dati verranno create nello spazio del progetto a cui appartengono.
Nota informaticaSe in seguito si attiva il controllo della versione per il progetto, non sarà possibile cambiare il nome mentre è attivo il controllo della versione. - Selezionare Pipeline di dati in Caso di utilizzo.
-
Selezionare quale piattaforma dati utilizzare nel progetto.
-
Selezionare una connessione al data warehouse cloud che si desidera utilizzare nel progetto. Questo verrà utilizzato per trasferire file di dati e archiviare serie di dati e viste. Se non è stata già preparata una connessione, crearne una con Aggiungi connessione.
Se la piattaforma dati selezionata è Google BigQuery, Databricks o Microsoft Azure Synapse Analytics, è necessario connettersi anche a un'area di staging.
-
Se piattaforma dati selezionata è Qlik Cloud:
È possibile archiviare i dati nell'archiviazione gestita da Qlik o nel proprio bucket S3 gestito da Amazon. Se si desidera utilizzare il bucket Amazon S3, è necessario selezionare una connessione a quel bucket.
In entrambi i casi, occorre selezionare anche una connessione a un'area di staging di Amazon S3. Se si utilizza lo stesso bucket definito nel passaggio precedente, assicurarsi di utilizzare un'altra cartella nel bucket per lo staging.
-
Fare clic su Crea.
Il progetto viene creato ed è possibile creare la pipeline di dati aggiungendo attività dati.
-
-
Inserire i dati
Nel progetto, fare clic su Crea e poi su Inserisci dati.
Per ulteriori informazioni, vedere Inserimento dati.
Ciò creerà un'attività per i dati di trasferimento e un'attività per i dati di archiviazione. Per iniziare a replicare i dati è necessario:
-
Preparare ed eseguire l'attività per i dati di trasferimento.
Per ulteriori informazioni, vedere Trasferimento dati da sorgenti dati.
-
Preparare ed eseguire l'attività per i dati di archiviazione.
Per ulteriori informazioni, vedere Archiviazione di set di dati.
-
-
Trasformazione dei dati
Una volta creata l'attività per i dati di archiviazione, tornare al progetto. È ora possibile eseguire trasformazioni sulle serie di dati create.
Fare clic su ... sull'attività dati di archiviazione e selezionare Trasforma dati per creare un'attività dati di trasformazione basata su questa attività dati di archiviazione. Per istruzioni sulle trasformazioni, vedere Trasformazione di dati.
-
Creazione di un data mart
È possibile creare un data mart basato su un'attività dati di archiviazione o su un'attività dati di trasformazione.
Fare clic su ... sull'attività dati e selezionare Crea data mart per creare un'attività dati di data mart. Per istruzioni sulla creazione di un data mart, vedere:
Dopo aver eseguito il primo caricamento completo delle serie di dati e dei data mart archiviati e trasformati, è possibile utilizzarli, ad esempio, in un'app analitica. Per ulteriori informazioni sulla creazione di app di analisi, vedere Creazione di un'app di analisi usando serie di dati generate da Qlik Talend Data Integration .
È possibile anche espandere la pipeline di dati inserendo in onboarding più sorgenti dati e combinandole nella trasformazione o nel data mart.
Operazioni nel progetto di una pipeline dati
È possibile eseguire le stesse operazioni disponibili per un'attività dati come operazioni di un progetto. Questo consente di orchestrare le operazioni in una pipeline di dati.
Attivare e disattivare le pianificazioni
Eseguire operazioni di progettazione
Avviare e interrompere l'esecuzione delle attività dati
Eliminare attività dati
Fare clic su Operazioni per visualizzare lo stato di un'operazione in esecuzione o dell'ultima operazione eseguita.
È possibile interrompere un'operazione in esecuzione facendo clic su Interrompi operazione. Le attività dati in esecuzione non saranno interrotte, ma verrà annullata qualsiasi attività che non è stata ancora avviata.
Attivare e disattivare le pianificazioni
È possibile controllare le pianificazioni per le attività dati a livello del progetto.
Fare clic su ..., quindi su Pianificazione.
È possibile attivare o disattivare la pianificazione di tutte le attività dati o di quelle selezionate. Sono visualizzate solo le attività con una pianificazione definita.
Nota informaticaQuesta opzione non è disponibile per i progetti che utilizzano Qlik Cloud come piattaforma dati.
Per ulteriori informazioni sulla programmazione di singole attività dati, vedere:
Esecuzione di operazioni di progettazione
È possibile eseguire operazioni di progettazione per tutte le attività dati nel progetto o per quelle selezionate. Ciò consente di controllare più facilmente le attività dei set di dati nel progetto, anziché eseguire le operazioni di progettazione in modo individuale in ogni attività.
Convalida
Fare clic su Convalida per convalidare tutte le attività o solo quelle selezionate. Vengono preselezionate le attività dati che sono state modificate dall'ultima operazione di convalida.
Le attività dati vengono convalidate seguendo l'ordine della pipeline.
Prepara
Fare clic su Prepara per preparare tutte le attività o solo quelle selezionate. Vengono preselezionate le attività dati che sono state modificate dall'ultima operazione di preparazione.
È possibile selezionare per ricreare i set di dati che richiedono una modifica della struttura non supportata dalla piattaforma dati. Questo può portare alla perdita di dati.
Ricrea
Fare clic su ..., quindi su Ricrea per ricreare i set di dati dalla sorgente per tutte le attività o solo per quelle selezionate.
Esecuzione di attività dati
È possibile avviare l'esecuzione di tutte le attività dati nel progetto o solo di una selezione, anziché eseguire le attività in modo individuale. Ad esempio, è possibile eseguire tutte le attività con una pianificazione basata sul tempo. Questa operazione avvia le attività a valle con una pianificazione basata sugli eventi.
Esegui
Fare clic su Esegui per avviare l'esecuzione di tutte le attività o solo di quelle selezionate. Questa operazione avvia l'esecuzione di tutte le attività selezionate e viene completata non appena inizia l'esecuzione.
È possibile selezionare tutte le attività pronte per l'esecuzione. Le attività con una pianificazione basata sul tempo e le attività che utilizzano CDC vengono preselezionate. Le attività con pianificazione basata su eventi non vengono preselezionate poiché verranno eseguite quando disporranno di dati per l'elaborazione.
In un progetto con Qlik Cloud come piattaforma dati, tutte le attività di trasferimento e archiviazione vengono preselezionate.
Nota informaticaTutte le attività dati vengono eseguite in parallelo. Questo significa che le verifiche di dipendenza possono impedire l'esecuzione di alcune attività.Arresta
Fare clic su Arresta per interrompere tutte le attività o solo quelle selezionate.
È possibile selezionare tutte le attività che sono in esecuzione.
Eliminazione di attività dati
Fare clic su Elimina per eliminare tutte le attività dati in un progetto o solo quelle selezionate.
Modifica della visualizzazione di un progetto
Sono disponibili due visualizzazioni differenti per i progetti. È possibile passare da una visualizzazione all'altra facendo clic suVisualizzazione pipeline.
La visualizzazione pipeline mostra il flusso di dati delle attività dati.
È possibile scegliere quali informazioni mostrare per le attività dati facendo clic su Livelli. Attivare o disattivare le seguenti informazioni:
Stato
Aggiornamento dei dati
Pianificazione
La visualizzazione a schede mostra una scheda con le informazioni sulle attività dati.
È possibile filtrare la visualizzazione per tipo di risorsa e proprietario.
Visualizzazione di dati
È possibile visualizzare un campione dei dati per verificare e convalidare il modello dati, poiché si sta definendo la pipeline di dati.
Sono necessarie le seguenti autorizzazioni:
La visualizzazione dei dati è abilitata a livello tenant in Amministrazione.
Abilitare Impostazioni > Controllo funzione > Visualizzazione dei dati in Integrazione dati.
Si dispone del ruolo Può visualizzare i dati per lo spazio in cui risiede la connessione.
Si dispone del ruolo Può visualizzare per lo spazio in cui risiede il progetto.
Per visualizzare i dati campione nella vista della pipeline di dati:
Fare clic su nel banner di anteprima in fondo alla vista pipeline.
Selezionare l'attività di dati da visualizzare in anteprima.
Viene visualizzato un campione dei dati. È possibile impostare il numero di righe che si desidera includere nel campione nell'opzione Numero di righe.
Esportazione e importazione di progetti
È possibile esportare un progetto in un file JSON che contiene tutto ciò che è necessario per ricostruire il progetto. Il file JSON esportato può essere importato sullo stesso tenant o su un altro tenant. È possibile utilizzarlo, ad esempio, per spostare i progetti da un tenant all'altro o per eseguire copie di backup dei progetti.
Per ulteriori informazioni, vedere Esportazione e importazione di pipeline di dati.
Impostazioni del progetto
È possibile impostare proprietà comuni al progetto e a tutte le attività dati incluse.
Fare clic su Impostazioni.
Per ulteriori informazioni, vedere Impostazioni per i progetti di pipeline di dati.