Creazione di un progetto pipeline di dati
È possibile creare una pipeline di dati per eseguire l'intera integrazione dei dati all'interno di un progetto utilizzando le attività dati. L'onboarding sposta i dati nel progetto da sorgenti dati on-premise o nel cloud e archivia i dati in set di dati pronti per il consumo. È possibile eseguire l'onboarding dei dati in un data warehouse o in Qlik Open Lakehouse.
Quando si esegue l'onboarding dei dati in un data warehouse, è anche possibile eseguire trasformazioni e creare data mart per sfruttare i set di dati generati e trasformati. La pipeline di dati può essere semplice e lineare, oppure può essere una pipeline complessa che consuma diverse sorgenti dati e genera molti output.
Tutte le attività dati verranno create nello stesso spazio del progetto a cui appartengono.
È inoltre possibile visualizzare la derivazione per tracciare i dati e le trasformazioni dati a ritroso fino alla sorgente originale ed eseguire l'analisi dell'impatto che mostra la vista previsionale a valle delle dipendenze di attività dati, set di dati o campo. Per ulteriori informazioni, vedere Utilizzo di derivazione e analisi impatto in Integrazione dati.
Acquisizione di dati in un data warehouse
Ciò include il trasferimento dei dati in un'area di staging e la successiva archiviazione dei set di dati in un data warehouse cloud. Le attività dati di trasferimento e archiviazione vengono create in un unico passaggio. Se necessario, è anche possibile eseguire il trasferimento e l'archiviazione con attività separate.
Onboarding dei dati in Qlik Open Lakehouse
Creare un progetto pipeline Qlik Open Lakehouse per copiare i dati da qualsiasi sorgente supportata nel formato tabella aperta Iceberg. È possibile accedere alle tabelle ed eseguire query dal motore di analisi del data warehouse cloud, senza duplicare i dati utilizzando un'attività dati Mirror.
Registrazione di dati già presenti nella piattaforma dati
Registrare i dati già esistenti sulla piattaforma dati per curare e trasformare i dati e creare data mart. Ciò consente di utilizzare i dati di cui è stato eseguito l'onboarding con strumenti diversi da Qlik Talend Data Integration, ad esempio Qlik Replicate o Stitch.
Trasformazione dei dati
Creare trasformazioni a livello di riga riutilizzabili sui dati di cui è stato eseguito l'onboarding in base a regole e SQL personalizzato. Questo crea un'attività Trasforma dati.
Creazione e gestione di data mart
Creare un data mart per sfruttare i propri set di dati. Questo crea un'attività dati Data mart.
Creazione di knowledge mart
Creare un knowledge mart per incorporare e archiviare i dati strutturati e non strutturati in un database vettoriale. Questo crea un'attività dati Knowledge mart.
Piattaforme dati di destinazione
Il progetto è associato a una piattaforma dati che viene utilizzata come destinazione per tutti gli output.
Per ulteriori informazioni sulle piattaforme dati supportate, vedere Configurazione delle connessioni alle destinazioni.
Introduzione video ai progetti
Esempio di creazione di un progetto
L'esempio seguente esegue l'onboarding dei dati, la trasformazione dei dati e la creazione di un data mart. Questo creerà una semplice pipeline di dati lineare che è possibile espandere eseguendo l'onboarding di più sorgenti dati, creando più trasformazioni e aggiungendo le attività dati generate al data mart.
Esempio di una pipeline di dati lineare in un progetto
-
Creare un nuovo progetto.
In Integrazione dati > Progetti pipeline, fare clic su Crea nuovo > Progetto.
-
Inserire un nome e una descrizione per il progetto.
Nota informaticaSe in seguito si abilita il controllo della versione per il progetto, non sarà possibile modificare il nome del progetto mentre è sotto il controllo della versione. -
Selezionare uno spazio in cui creare il progetto. Tutte le attività dati verranno create nello spazio del progetto a cui appartengono.
- Selezionare Pipeline di dati in Caso d'uso.
-
Selezionare quale piattaforma dati utilizzare nel progetto.
-
Selezionare una connessione al data warehouse cloud che si desidera utilizzare nel progetto. Questa verrà utilizzata per il trasferimento dei file di dati e l'archiviazione di set di dati e viste. Se non è già stata preparata una connessione, crearne una con Crea nuova.
-
Se si è selezionato Google BigQuery, Databricks o Microsoft Azure Synapse Analytics come piattaforma dati, è necessario connettersi anche a un'area di staging.
-
Se si è selezionato Snowflake come piattaforma dati, è possibile scegliere di eseguire il trasferimento dei dati nell'archiviazione cloud. Vedere Dati di trasferimento su un lakehouse.
-
Se si è selezionato Qlik Cloud come piattaforma dati:
È possibile archiviare i dati nell'archiviazione gestita da Qlik o nel proprio bucket Amazon S3 gestito. Se si desidera utilizzare il proprio bucket Amazon S3, è necessario selezionare una connessione a quel bucket.
In entrambi i casi, è necessario selezionare anche una connessione a un'area di staging Amazon S3. Se si utilizza lo stesso bucket definito nel passaggio precedente, assicurarsi di utilizzare un'altra cartella nel bucket per lo staging.
-
-
Fare clic su Crea.
Il progetto viene creato ed è possibile creare la propria pipeline di dati aggiungendo attività dati.
-
-
Eseguire l'onboarding dei dati
Nel progetto, fare clic su Crea e quindi su Onboarding dati.
Per ulteriori informazioni, vedere Acquisizione di dati in un data warehouse.
Questo creerà un'attività dati di trasferimento e un'attività dati di archiviazione. Per iniziare a replicare i dati è necessario:
-
Preparare ed eseguire l'attività dati di trasferimento.
Per ulteriori informazioni, vedere Trasferimento dati da sorgenti dati.
-
Preparare ed eseguire l'attività dati di archiviazione.
Per ulteriori informazioni, vedere Archiviazione di set di dati.
-
-
Trasformazione dei dati
Quando viene creata l'attività dati di archiviazione, tornare al progetto. Ora è possibile eseguire trasformazioni sui set di dati creati.
Fare clic su ... sull'attività dati di archiviazione e selezionare Trasforma dati per creare un'attività dati di trasformazione basata su questa attività dati di archiviazione. Per istruzioni sulle trasformazioni, vedere Trasformazione dei dati.
-
Creazione di un data mart
È possibile creare un data mart basato su un'attività dati di archiviazione o su un'attività dati di trasformazione.
Fare clic su ... sull'attività dati e selezionare Crea data mart per creare un'attività dati data mart. Per istruzioni sulla creazione di un data mart, vedere:
Quando si è eseguito il primo caricamento completo dei set di dati e dei data mart archiviati e trasformati, è possibile utilizzarli, ad esempio, in un'applicazione analitica. Per ulteriori informazioni sulla creazione di applicazioni analitiche, vedere Creazione di un'app analitica usando set di dati generati in Integrazione dati.
È inoltre possibile espandere la pipeline di dati eseguendo l'onboarding di più sorgenti dati e combinandole nella trasformazione o nel data mart.
Creazione di pipeline tra progetti
È possibile creare pipeline tra progetti in cui un'attività può consumare attività da un altro progetto. Ciò consente di ottenere la segmentazione in diversi modi possibili:
-
È possibile creare una pipeline di spostamento dati separata per ogni unità organizzativa e consumare gli output in una singola pipeline data mart.
-
È possibile creare una singola pipeline di spostamento dati e consumare l'output in diverse pipeline di trasformazione.
Le attività Trasforma e Data mart possono consumare attività di Archiviazione e Trasforma situate in un altro progetto.
-
È necessario disporre almeno del ruolo Può consumare nello spazio del progetto consumato.
-
Entrambi i progetti devono trovarsi sulla stessa piattaforma dati.
Tutti i set di dati di un'attività sono condivisi con i progetti a valle. Ciò significa che se si desidera ottenere la segregazione dei set di dati, è necessario filtrare i set di dati nel progetto consumato creando un'attività di trasformazione.
Nella vista dei progetti, è possibile visualizzare le attività consumate da un altro progetto e le attività di altri progetti consumate nel progetto corrente. Tutte le attività esterne al progetto corrente sono grigie. Le dipendenze sono per riferimento e non per nome, il che significa che è possibile rinominare un'attività senza interrompere il riferimento. Ciò significa anche che se si elimina un'attività consumata e si crea una nuova attività con lo stesso nome, il riferimento verrà comunque interrotto.
Esistono diversi modi per riutilizzare i dati esistenti:
-
Creazione di un nuovo progetto
Selezionare l'opzione Usa dati da un altro progetto dopo aver creato un progetto.
È possibile creare una trasformazione o un data mart, consumando i dati di cui è stato eseguito l'onboarding da un'altra pipeline.
-
In un'attività Trasforma o in un'attività Data mart, è possibile selezionare i dati da un altro progetto in Seleziona dati di origine.
Quando si selezionano i dati di origine, selezionare Progetto. Se il progetto selezionato è sotto il controllo della versione, selezionare un Ramo. Il ramo predefinito è main. L'elenco delle attività dati si aggiorna per riflettere il ramo selezionato. Quindi selezionare un'Attività dati per vedere quali set di dati sono disponibili.
È possibile scegliere se visualizzare le attività in altri progetti che consumano un'attività in questo progetto.
-
Fare clic su Livelli e attivare o disattivare Output tra progetti.
Tutte le attività esterne al progetto corrente sono grigie.
Limitazioni del controllo della versione
Poiché le pipeline tra progetti sono suddivise tra più progetti, ciò aggiunge complessità quando si utilizza il controllo della versione. In questi esempi Project1 è consumato da Project2.
Esempio di una pipeline tra progetti

-
Project2 può consumare un ramo specifico di Project1. Selezionare il ramo in Seleziona dati di origine nell'attività di trasformazione o data mart. Il ramo predefinito è main. Se il progetto di riferimento non è sotto il controllo della versione, il selettore del ramo non viene mostrato e Project2 utilizza il progetto così com'è.
-
È possibile creare un ramo per Project1, ma la versione ramificata non mostrerà che è consumata da Project2.
-
È possibile unire Project2 a main, ma la dipendenza esisterà ancora.
Se il ramo selezionato in Project1 viene successivamente eliminato, il riferimento si interrompe nello stesso modo in cui viene eliminata un'attività di riferimento. Se l'attività di riferimento ha un output diverso sul ramo selezionato, il riferimento si comporta nello stesso modo in cui cambia l'output dell'attività di riferimento.
Best practice
-
Verificare che le attività nel progetto consumato siano almeno preparate, per assicurarsi che siano valide.
-
Se si prevede di esportare e importare progetti tra tenant, sarà più semplice se si mantengono gli stessi nomi per gli spazi e i progetti nei tenant. Se i nomi differiscono, sarà necessario mappare progetti e attività durante l'importazione del progetto.
-
Se si desidera modificare la piattaforma dati utilizzando l'esportazione e l'importazione, tutti i progetti con dipendenze devono trovarsi sulla stessa piattaforma.
Seguire questi passaggi per un cambio di piattaforma sicuro e semplice. In questo esempio il progetto consumato si chiama Consumed e il progetto che legge da Consumed si chiama Consumer.
-
Esportare Consumed e Consumer.
-
Importare Consumed in Consumed_New, passando alla nuova piattaforma dati.
-
Importare Consumer in Consumer_New, passando alla stessa piattaforma dati di Consumed_New e sostituendo il progetto di origine (Consumed) con Consumed_New.
-
Operazioni in un progetto pipeline di dati
È possibile eseguire le stesse operazioni disponibili per un'attività dati come operazioni di progetto. Ciò consente di orchestrare le operazioni nella pipeline di dati.
-
Attivare e disattivare le pianificazioni
-
Eseguire operazioni di progettazione
-
Avviare e interrompere l'esecuzione delle attività dati
-
Eliminare le attività dati
Fare clic su Operazioni per visualizzare lo stato di un'operazione in corso o l'ultima operazione eseguita.
È possibile interrompere un'operazione in corso facendo clic su Interrompi operazione. Le attività dati in corso non verranno interrotte, ma verranno annullate tutte le attività non ancora avviate.
Attivazione e disattivazione delle pianificazioni
È possibile controllare le pianificazioni per le attività dati a livello di progetto.
-
Fare clic su ..., quindi su Pianificazione.
È possibile attivare o disattivare la pianificazione per tutte le attività dati o per una selezione di attività. Vengono visualizzate solo le attività con una pianificazione definita.
Nota informaticaQuesta opzione non è disponibile per i progetti con Qlik Cloud come piattaforma dati.
Per ulteriori informazioni sulla pianificazione delle singole attività dati, vedere:
Esecuzione di operazioni di progettazione
È possibile eseguire operazioni di progettazione su tutte le attività dati nel progetto o su una selezione di attività. Ciò semplifica il controllo delle attività dei set di dati nel progetto, invece di eseguire le operazioni di progettazione singolarmente in ogni attività.
-
Convalida
Fare clic su Convalida per convalidare tutte le attività o una selezione di attività. Le attività dati modificate dall'ultima operazione di convalida sono preselezionate.
Le attività dati vengono convalidate nell'ordine della pipeline.
-
Prepara
Fare clic su Prepara per preparare tutte le attività o una selezione di attività. Le attività dati modificate dall'ultima operazione di preparazione sono preselezionate.
È possibile scegliere di ricreare i set di dati che richiedono una modifica della struttura non supportata dalla piattaforma dati. Ciò può comportare la perdita di dati.
-
Ricrea
Fare clic su ..., quindi su Ricrea tabelle per ricreare i set di dati dall'origine per tutte le attività o per una selezione di attività.
Nota informaticaSe si verificano problemi con tabelle individuali, si consiglia per prima cosa di ricaricare le tabelle anziché ricrearle. La ricreazione delle tabelle può causare la perdita di dati cronologici. Se vi sono modifiche importanti, è necessario anche preparare le attività dati a valle che utilizzano le attività dati ricreate in modo che ricarichino i dati.
Esecuzione di attività dati
È possibile avviare l'esecuzione di tutte le attività dati nel progetto o su una selezione di attività, invece di eseguire le attività singolarmente. Ad esempio, è possibile eseguire tutte le attività con una pianificazione basata sul tempo. Ciò avvierà le attività a valle con una pianificazione basata sugli eventi.
-
Esegui
Fare clic su Esegui per avviare l'esecuzione di tutte le attività o di una selezione di attività. Questo avvia l'esecuzione di tutte le attività selezionate e si completa non appena iniziano l'esecuzione.
È possibile selezionare tra tutte le attività pronte per l'esecuzione. Le attività con una pianificazione basata sul tempo e le attività che utilizzano CDC sono preselezionate. Le attività con una pianificazione basata sugli eventi non sono preselezionate in quanto verranno eseguite quando avranno dati da elaborare.
In un progetto con Qlik Cloud come piattaforma dati, tutte le attività di trasferimento e archiviazione sono preselezionate.
Nota informaticaTutte le attività dati vengono eseguite in parallelo. Ciò significa che i controlli delle dipendenze potrebbero impedire l'esecuzione di alcune attività. -
Interrompi
Fare clic su Interrompi per interrompere tutte le attività o una selezione di attività.
È possibile selezionare tra le attività in esecuzione.
Eliminazione di attività dati
-
Fare clic su Elimina per eliminare tutte le attività dati nel progetto o una selezione di attività.
Non è possibile eliminare le attività in esecuzione o le attività utilizzate da altre attività.
Modifica della vista di un progetto
Esistono due diverse viste del progetto. È possibile passare da una vista all'altra facendo clic su Vista pipeline.
-
La vista pipeline mostra il flusso di dati delle attività dati.
È possibile scegliere quante informazioni mostrare per le attività dati facendo clic su Livelli. Attivare o disattivare le seguenti informazioni:
-
Stato
-
Attualità dei dati
-
Pianificazione
-
Output tra progetti
Questo visualizzerà le attività in altri progetti che consumano un'attività in questo progetto. Tutte le attività esterne al progetto corrente sono grigie.
-
-
La vista a schede mostra una vista a schede con informazioni sull'attività dati.
È possibile filtrare per tipo di risorsa e proprietario.
Eliminazione di un progetto
-
Nella vista Progetti pipeline, fare clic su
su un progetto e selezionare Elimina.
È possibile scegliere di mantenere gli artefatti (tabelle e viste) creati da un'attività per ogni singola attività, ad eccezione dei seguenti tipi in cui gli artefatti vengono sempre mantenuti:
-
Attività di trasferimento
-
Attività di trasferimento lake
-
Attività di replica
Visualizzazione dei dati
È possibile visualizzare un campione dei dati per vedere e convalidare la forma dei dati durante la progettazione della pipeline di dati.
Sono richieste le seguenti autorizzazioni:
-
La visualizzazione dei dati è abilitata a livello di tenant in Amministrazione.
Abilitare Impostazioni > Controllo funzionalità > Visualizzazione dei dati in Integrazione dati.
-
È stato assegnato il ruolo Può visualizzare i dati nello spazio in cui risiede la connessione.
-
È stato assegnato il ruolo Può visualizzare nello spazio in cui risiede il progetto.
Per visualizzare i dati campione nella vista della pipeline di dati:
-
Fare clic su
nel banner di anteprima nella parte inferiore della vista della pipeline.
-
Selezionare per quale attività dati visualizzare l'anteprima dei dati.
Viene visualizzato un campione dei dati. È possibile impostare quante righe di dati includere nel campione con Numero di righe.
Esportazione e importazione di progetti
È possibile esportare un progetto in un file JSON che contiene tutto il necessario per ricostruire il progetto. Il file JSON esportato può essere importato sullo stesso tenant o su un altro tenant. È possibile utilizzarlo, ad esempio, per spostare progetti da un tenant all'altro o per creare copie di backup dei progetti.
Per ulteriori informazioni, vedere Esportazione e importazione di pipeline di dati.
Modifica del proprietario di un progetto
Le attività dati operano nel contesto del proprietario del progetto a cui appartengono. È possibile modificare il proprietario di un progetto per trasferire il controllo di tutte le attività nel progetto dati a un altro utente. Questo è utile, ad esempio, se ci sono progetti di proprietà di un utente che è stato eliminato.
-
Nella vista del progetto, fare clic su ... e quindi su Cambia proprietario.
La modifica della proprietà si applicherà a tutte le attività nel progetto. Anche tutti i set di dati catalogati creati dalle attività nel progetto cambieranno proprietario.
Modifica della connessione alla piattaforma dati
Se si modifica la connessione alla Piattaforma dati per un progetto, è necessario:
-
Ricreare le tabelle in tutte le attività di trasferimento.
-
Preparare tutte le altre attività nel progetto.
Visualizzazione delle informazioni del progetto
Fare clic su sulla barra dei menu per visualizzare le informazioni del progetto, ad esempio:
-
Proprietario
-
Spazio
-
Piattaforma dati
-
ID progetto
Impostazioni del progetto
È possibile impostare proprietà comuni al progetto e a tutte le attività dati incluse.
-
Fare clic su Impostazioni.
Per ulteriori informazioni, vedere Impostazioni per i progetti di pipeline di dati.