Aggiunta di flussi di trasformazione

Nelle attività di trasformazione è possibile includere i flussi. La funzione di progettazione dei flussi consente di creare un flusso di trasformazione utilizzando sorgenti, processori e destinazioni per definire trasformazioni semplici o complesse.

I flussi di trasformazione e i processori sono rappresentazioni logiche. Ciò significa che nelle attività ELT, per ogni destinazione viene creata esclusivamente una tabella, mentre tutti i processori vengono compilati in una singola istruzione SQL per destinazione.

Piattaforme di destinazione supportate

Le seguenti piattaforme sono supportate con i flussi di trasformazione:

Snowflake
Databricks
Google BigQuery
Azure Synapse Analytics
Microsoft Fabric
Microsoft SQL Server
Amazon Redshift

Nota informaticaLe seguenti funzioni di Amazon Redshift non sono disponibili: generazione della stringa UUID e Modifica distanza.

Prerequisiti

Prima di creare un flusso di trasformazione, è necessario eseguire le seguenti operazioni:

Compilare le attività di archiviazione con dati inseriti con onboarding che si desidera utilizzare nel flusso di trasformazione, oppure registrare i dati esistenti. Per maggiori informazioni su come completare l'onboarding dei dati e registrarli, vedere Acquisizione di dati in un data warehouse e Registrazione di dati già presenti nella piattaforma dati.
Preparare ed eseguire l'attività di archiviazione o di trasformazione utilizzata come sorgente nel flusso di trasformazione. L'esecuzione dell'attività di archiviazione non è obbligatoria, ma si consiglia di essere in grado di visualizzare un'anteprima dei dati durante ogni fase del flusso.

Creazione di un flusso di trasformazione

Per creare un flusso di trasformazione valido, è necessario almeno un set di dati di origine, oltre a una destinazione denominata con chiavi definite.

Aprire l'attività Trasforma dati nella pipeline di dati.
In Trasforma, selezionare i set di dati di origine da includere nel flusso di trasformazione, quindi fare clic su Aggiungi flusso di trasformazione.
L'opzione Aggiungi flusso di trasformazione consente di fornire le impostazioni per la trasformazione.
Immettere un nome per il set di dati di destinazione in Nome.

È anche possibile aggiungere una descrizione più lunga in Descrizione.
In Materializzazione, selezionare se l'output trasformato dovrebbe essere materializzato o meno. È possibile scegliere di ereditare l'impostazione dalle impostazioni delle attività dati.
- L'opzione Attivo creerà le tabelle e gestirà l'elaborazione ELT associato.
- L'opzione Disattivato creerà visualizzazioni che eseguono trasformazioni al volo.
In Archivio dati cronologico (Tipo 2), selezionare se si desidera conservare i dati cronologici. È possibile scegliere di ereditare l'impostazione dalle impostazioni delle attività dati. Questa impostazione richiede che la Materializzazione sia attiva.
Caricamento incrementale consente di regolare la query per un caricamento di dati incrementali applicando filtri o altre condizioni per ridurre il set di dati elaborato tramite macro. Caricamento incrementale è disponibile solo se i dati sono materializzati come tabelle.
- Quando Caricamento incrementale è Attivato
  
  La prima esecuzione dell'attività eseguirà un caricamento iniziale, inserendo tutti i risultati della query nella propria tabella di destinazione. Le esecuzioni successive eseguiranno caricamenti incrementali sfruttando filtri o condizioni specifiche che l'utente ha definito per l'elaborazione incrementale. Durante il caricamento incrementale, l'attività elaborerà dati solo sotto forma di aggiornamento o inserimento, le eliminazioni non sono gestite.
- Quando Caricamento incrementale è Disattivato
  
  La prima esecuzione dell'attività eseguirà un caricamento iniziale, inserendo tutti i risultati della query nella propria tabella di destinazione. Le esecuzioni successive elaboreranno tutti i risultati della query tramite la comparazione con la tabella di destinazione e l'elaborazione di record nuovi, modificati o eliminati.
Nota informaticaSe la query selezionerà tutti i record che devono essere presenti nella destinazione, impostare il Caricamento incrementale su Disattivato. I record che non sono selezionati saranno eliminati nella destinazione.
Quando si è pronti per creare il flusso di trasformazione, fare clic su Aggiungi.

Quindi, appare la funzione di progettazione dei flussi, la destinazione viene creata e visualizzata nel flusso come componente di destinazione.

Nota informaticaÈ obbligatorio fornire un nome univoco per la destinazione del flusso. Se si desidera rinominare la destinazione del flusso in un secondo momento, selezionare la destinazione e inserire un nuovo nome in Nome set di dati.
Se non viene definita alcuna chiave per la destinazione, fare clic su Modifica accanto al campo Chiave/i e valori nullable. Viene visualizzata la finestra di configurazione.
Nota informaticaLe chiavi non vengono ereditate dai set di dati di origine e devono essere definite manualmente. I valori nullable vengono ereditati dai set di dati di origine e possono essere modificati.
In Configura chiavi e valori nullable, selezionare Chiave nella colonna che si desidera definire come chiave primaria, quindi selezionare Valori nullable nella colonna o nelle colonne che di desidera definire come nullable.
Fare clic su Conferma per salvare le modifiche e chiudere la finestra di configurazione.

Se lo stato del flusso di trasformazione è valido, è possibile chiuderlo e preparare i dati.

È possibile modificare le impostazioni per Materializzazione e Caricamento incrementale in un secondo momento in Impostazioni destinazione.

Selezionare la destinazione e fare clic su Modifica accanto a Impostazioni nella configurazione della destinazione.

Aggiunta di un processore

È possibile aggiungere processori ai flussi.

I processori sono componenti che è possibile aggiungere ai flussi per trasformare i dati in entrata e restituire i dati trasformati per utilizzarli nella parte successiva del flusso.

Nella funzione di progettazione dei flussi, selezionare il componente del flusso dopo il quale si desidera aggiungere un processore.
Fare clic su nel componente del flusso, quindi su Aggiungi processore, quindi selezionare il processore che si desidera aggiungere. È possibile anche trascinare il processore dal pannello sinistro sul canvas.

È possibile visualizzare una breve descrizione del processore selezionandolo dal pannello Processori.

Configurare il processore in base alle esigenze, quindi fare clic su Salva per salvare le modifiche e aggiornare l'anteprima dei dati.
Nota informaticaÈ possibile visualizzare un'anteprima di un campione di dati utilizzando SQL e Anteprima dati. Per ulteriori informazioni, vedere Anteprima dei dati.

Processori disponibili

Processore Aggregate (Aggrega)

Processore IA

Processore Cleanse (Pulisci)

Processore Concatenate (Concatena)

Processore Filter (Filtra)

Processore Fork (Forchetta)

Processore Hash

Processore Incremental filter (Filtro incrementale)

Processore Join (Unisci)

Processore Math (Matematica)

Processore Numbers (Numeri)

Processore Remove columns (Rimuovi colonne)

Processore Select columns (Seleziona colonne)

Processore espressione SQL

Processore Strings (Stringhe)

Processore Union (Unione)

Caso di utilizzo: unione, aggregazione e filtro dei dati su Snowflake

In questo caso di utilizzo, i dati dei clienti di Snowflake devono essere trasformati utilizzando i processori. Poiché le informazioni dei clienti provengono da due set di dati, prima è necessario aggiungere un processore Join (Unisci) per combinare i record. Bisogna inoltre utilizzare un processore Aggregate (Aggrega) per calcolare il prezzo medio degli ordini, e un processore Filter (Filtro) per filtrare il tipo di record dei clienti che si desidera mantenere nei set di dati di output.

Un flusso di trasformazione con un processore Join (Unisci), un processore Aggregate (Aggrega) e un processore Filter (Filtro).

Il primo set di dati si basa su una tabella Snowflake denominata CUSTOMER_ACCOUNT con uno schema come il seguente:

Schema della tabella Snowflake relativa agli account dei clienti

Il secondo set di dati si basa su una tabella Snowflake denominata CUSTOMER_ORDER con uno schema come il seguente:

Schema della tabella Snowflake relativa agli ordini dei clienti

Trascinare un processore Join (Unisci) sul canvas dal pannello Processors (Processori) a sinistra.
Collegare la seconda sorgente al processore Join (Unisci), in modo che i dati di entrambi i set di dati possono essere combinati.
Configurare il processore Join (Unisci) in modo da unire i due set di dati di origine nelle chiavi dell'ID cliente (CUSTOMER_ID) .
Trascinare un processore Aggregate (Aggrega) dopo il processore Join (Unisci).
Configurare il processore Aggregate(Aggrega) per calcolare l'importo medio degli acquisti dei clienti (ORDER_TOTAL_PRICE) e salvarlo in una nova colonna che è possibile denominare avg_order_price, raggruppando i record in base al tipo di segmento dei clienti (LEFT_CUSTOMER_SEGMENT).
Trascinare e rilasciare un processore Filter (Filtra) dal pannello Processori (Processori) di sinistra sul canvas.
Configurare il processore Filter (Filtra) per filtrare i valori in base al tipo di cliente aziendale (Business).
Selezionare sul processore Filter (Filtra) per aprire il menu, quindi fare clic su Aggiungi destinazione non corrispondente per aggiungere una seconda destinazione al flusso.
Questa destinazione conterrà i record che non corrispondono ai criteri di filtro, i tipi di clienti individuali (Individual).
Inserire un nome per il nuovo set di dati di destinazione, come per esempio individual_cust.
Verificare l'anteprima dell'output in entrambe le destinazioni:
La destinazione business_cust mostra il prezzo medio degli ordini per i tipi di clienti aziendali, in questo caso 157.463687151.
La destinazione individual_cust mostra il prezzo medio degli ordini per i tipi di clienti individuali, in questo caso 153.576530612.
Assicurarsi che il flusso di trasformazione abbia uno stato valido, quindi chiuderlo.
Nella finestra Transform (Trasforma), fare clic su Prepare (Prepara) per preparare i dati.

Limiti e considerazioni

Nei flussi di trasformazione, i seguenti tipi di dati non possono essere utilizzati direttamente come valori in processori quali Cleanse, Hash o Filter:

TIME
DATE
DATETIME
JSON

Per lavorare con questi tipi di dati, convertili prima in formati supportati (ad esempio, STRING o NUMERIC) e poi utilizzali in questi processori.

Procedure consigliate

Quando si aggiungono i set di dati di origine o di destinazione ai flussi, è necessario impostare le chiavi e i valori nullable nel pannello di configurazione dei set di dati di destinazione.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – ti pregiamo di farcelo sapere!

Lascia qui il tuo feedback