Aggiunta di flussi di trasformazione
Nelle attività di trasformazione è possibile includere i flussi. La funzione di progettazione dei flussi consente di creare un flusso di trasformazione utilizzando sorgenti, processori e destinazioni per definire trasformazioni semplici o complesse.
I flussi di trasformazione e i processori sono rappresentazioni logiche. Ciò significa che nelle attività ELT, per ogni destinazione viene creata esclusivamente una tabella, mentre tutti i processori vengono compilati in una singola istruzione SQL per destinazione.
Piattaforme di destinazione supportate
Le seguenti piattaforme sono supportate con i flussi di trasformazione:
-
Snowflake
-
Databricks
-
Google BigQuery
-
Azure Synapse Analytics
-
Microsoft Fabric
-
Microsoft SQL Server
-
Amazon Redshift
Nota informaticaLe seguenti funzioni di Amazon Redshift non sono disponibili: generazione della stringa UUID e Modifica distanza.
Prerequisiti
Prima di creare un flusso di trasformazione, è necessario eseguire le seguenti operazioni:
- Compilare le attività di archiviazione con dati inseriti con onboarding che si desidera utilizzare nel flusso di trasformazione, oppure registrare i dati esistenti. Per maggiori informazioni su come completare l'onboarding dei dati e registrarli, vedere Inserimento dati e Registrazione di dati già presenti nella piattaforma dati.
- Preparare ed eseguire l'attività di archiviazione o di trasformazione utilizzata come sorgente nel flusso di trasformazione. L'esecuzione dell'attività di archiviazione non è obbligatoria, ma si consiglia di essere in grado di visualizzare un'anteprima dei dati durante ogni fase del flusso.
Creazione di un flusso di trasformazione
Per creare un flusso di trasformazione valido, è necessario almeno un set di dati di origine, oltre a una destinazione denominata con chiavi definite.
- Aprire l'attività Trasforma dati nella pipeline di dati.
- In Trasforma, selezionare i set di dati di origine da includere nel flusso di trasformazione, quindi fare clic su Aggiungi flusso di trasformazione.
L'opzione Aggiungi flusso di trasformazione consente di fornire le impostazioni per la trasformazione.
-
Immettere un nome per il set di dati di destinazione in Nome.
È anche possibile aggiungere una descrizione più lunga in Descrizione.
-
In Materializzazione, selezionare se l'output trasformato dovrebbe essere materializzato o meno. È possibile scegliere di ereditare l'impostazione dalle impostazioni delle attività dati.
-
L'opzione Attivo creerà le tabelle e gestirà l'elaborazione ELT associato.
-
L'opzione Disattivato creerà visualizzazioni che eseguono trasformazioni al volo.
-
-
Caricamento incrementale consente di regolare la query per un caricamento di dati incrementali applicando filtri o altre condizioni per ridurre il set di dati elaborato tramite macro. Caricamento incrementale è disponibile solo se i dati sono materializzati come tabelle.
-
Quando Caricamento incrementale è Attivato
La prima esecuzione dell'attività eseguirà un caricamento iniziale, inserendo tutti i risultati della query nella propria tabella di destinazione. Le esecuzioni successive eseguiranno caricamenti incrementali sfruttando filtri o condizioni specifiche che l'utente ha definito per l'elaborazione incrementale. Durante il caricamento incrementale, l'attività elaborerà dati solo sotto forma di aggiornamento o inserimento, le eliminazioni non sono gestite.
-
Quando Caricamento incrementale è Disattivato
La prima esecuzione dell'attività eseguirà un caricamento iniziale, inserendo tutti i risultati della query nella propria tabella di destinazione. Le esecuzioni successive elaboreranno tutti i risultati della query tramite la comparazione con la tabella di destinazione e l'elaborazione di record nuovi, modificati o eliminati.
Nota informaticaSe la query selezionerà tutti i record che devono essere presenti nella destinazione, impostare il Caricamento incrementale su Disattivato. I record che non sono selezionati saranno eliminati nella destinazione. -
-
Quando si è pronti per creare il flusso di trasformazione, fare clic su Aggiungi.
Quindi, appare la funzione di progettazione dei flussi, la destinazione viene creata e visualizzata nel flusso come componente di destinazione.
Nota informaticaÈ obbligatorio fornire un nome univoco per la destinazione del flusso. Se si desidera rinominare la destinazione del flusso in un secondo momento, selezionare la destinazione e inserire un nuovo nome in Nome set di dati. - Se non viene definita alcuna chiave per la destinazione, fare clic su Modifica accanto al campo Chiave/i e valori nullable. Viene visualizzata la finestra di configurazione. Nota informaticaLe chiavi non vengono ereditate dai set di dati di origine e devono essere definite manualmente. I valori nullable vengono ereditati dai set di dati di origine e possono essere modificati.
- In Configura chiavi e valori nullable, selezionare Chiave nella colonna che si desidera definire come chiave primaria, quindi selezionare Valori nullable nella colonna o nelle colonne che di desidera definire come nullable.
- Fare clic su Conferma per salvare le modifiche e chiudere la finestra di configurazione.
Se lo stato del flusso di trasformazione è valido, è possibile chiuderlo e preparare i dati.
È possibile modificare le impostazioni per Materializzazione e Caricamento incrementale in un secondo momento in Impostazioni destinazione.
-
Selezionare la destinazione e fare clic su Modifica accanto a Impostazioni nella configurazione della destinazione.
Aggiunta di un processore
È possibile aggiungere processori ai flussi.
I processori sono componenti che è possibile aggiungere ai flussi per trasformare i dati in entrata e restituire i dati trasformati per utilizzarli nella parte successiva del flusso.
- Nella funzione di progettazione dei flussi, selezionare il componente del flusso dopo il quale si desidera aggiungere un processore.
- Fare clic su nel componente del flusso, quindi su Aggiungi processore, quindi selezionare il processore che si desidera aggiungere. È possibile anche trascinare il processore dal pannello sinistro sul canvas.
- Configurare il processore in base alle esigenze, quindi fare clic su Salva per salvare le modifiche e aggiornare l'anteprima dei dati. Nota informaticaÈ possibile visualizzare un'anteprima di un campione di dati utilizzando SQL e Anteprima dati. Per ulteriori informazioni, vedere Anteprima dei dati.
Processori disponibili
Caso di utilizzo: unione, aggregazione e filtro dei dati su Snowflake
In questo caso di utilizzo, i dati dei clienti di Snowflake devono essere trasformati utilizzando i processori. Poiché le informazioni dei clienti provengono da due set di dati, prima è necessario aggiungere un processore Join (Unisci) per combinare i record. Bisogna inoltre utilizzare un processore Aggregate (Aggrega) per calcolare il prezzo medio degli ordini, e un processore Filter (Filtro) per filtrare il tipo di record dei clienti che si desidera mantenere nei set di dati di output.
Il primo set di dati si basa su una tabella Snowflake denominata CUSTOMER_ACCOUNT con uno schema come il seguente:
Il secondo set di dati si basa su una tabella Snowflake denominata CUSTOMER_ORDER con uno schema come il seguente:
- Trascinare un processore Join (Unisci) sul canvas dal pannello Processors (Processori) a sinistra.
- Collegare la seconda sorgente al processore Join (Unisci), in modo che i dati di entrambi i set di dati possono essere combinati.
- Configurare il processore Join (Unisci) in modo da unire i due set di dati di origine nelle chiavi dell'ID cliente (CUSTOMER_ID) .
- Trascinare un processore Aggregate (Aggrega) dopo il processore Join (Unisci).
- Configurare il processore Aggregate(Aggrega) per calcolare l'importo medio degli acquisti dei clienti (ORDER_TOTAL_PRICE) e salvarlo in una nova colonna che è possibile denominare avg_order_price, raggruppando i record in base al tipo di segmento dei clienti (LEFT_CUSTOMER_SEGMENT).
- Trascinare e rilasciare un processore Filter (Filtra) dal pannello Processori (Processori) di sinistra sul canvas.
- Configurare il processore Filter (Filtra) per filtrare i valori in base al tipo di cliente aziendale (Business).
- Selezionare sul processore Filter (Filtra) per aprire il menu, quindi fare clic su Aggiungi destinazione non corrispondente per aggiungere una seconda destinazione al flusso.
Questa destinazione conterrà i record che non corrispondono ai criteri di filtro, i tipi di clienti individuali (Individual).
- Inserire un nome per il nuovo set di dati di destinazione, come per esempio individual_cust.
- Verificare l'anteprima dell'output in entrambe le destinazioni:
La destinazione business_cust mostra il prezzo medio degli ordini per i tipi di clienti aziendali, in questo caso 157.463687151.
La destinazione individual_cust mostra il prezzo medio degli ordini per i tipi di clienti individuali, in questo caso 153.576530612.
- Assicurarsi che il flusso di trasformazione abbia uno stato valido, quindi chiuderlo.
- Nella finestra Transform (Trasforma), fare clic su Prepare (Prepara) per preparare i dati.
Procedure consigliate
Quando si aggiungono i set di dati di origine o di destinazione ai flussi, è necessario impostare le chiavi e i valori nullable nel pannello di configurazione dei set di dati di destinazione.