Vai al contenuto principale Passa a contenuto complementare

Trasformazione dei dati

È possibile creare trasformazioni di dati riutilizzabili e basate su regole come parte della pipeline di dati. È possibile eseguire trasformazioni come parte dell'onboarding dei dati o creare attività dati di trasformazione riutilizzabili. È possibile eseguire trasformazioni a livello di riga e creare set di dati che vengono materializzati come tabelle o creati come viste che eseguono trasformazioni in tempo reale.

  • È possibile eseguire trasformazioni esplicite dei set di dati o creare regole globali per trasformare più set di dati. È possibile anche filtrare un set di dati per creare un sottoinsieme di righe.

  • È possibile aggiungere trasformazioni SQL. Una trasformazione SQL consente di inserire una query SQL SELECT in una pipeline per definire trasformazioni complesse o semplici.

  • È possibile aggiungere flussi di trasformazione con sorgenti, processori e destinazioni per definire trasformazioni semplici o complesse.

Nota informaticaLe attività dati vengono eseguite nel contesto del relativo proprietario. Per ulteriori informazioni su ruoli e autorizzazioni necessari, vedere Ruoli e autorizzazioni dello spazio dati.

Creazione di un attività dati di trasformazione

Il modo più semplice per creare un'attività dati di trasformazione consiste nel fare clic su ... su un'attività dati di archiviazione e quindi selezionare Transform data (Trasforma dati).

È possibile anche fare clic su Aggiungi nuova in un progetto dati e selezionare Trasforma dati. In tal caso è necessario definire quale attività dati di origine utilizzare.

  1. Definire i dati di origine e le destinazioni in Trasforma.

    È possibile:

    • Selezionare i set di dati di origine e fare clic su Aggiungi a destinazione per aggiungerli alla Destinazione.

      È possibile quindi eseguire trasformazioni basiche sui set di dati, come filtrare i dati o aggiungere colonne, nell'opzione Set di dati.

      Per ulteriori informazioni, vedere Gestione dei data mart.

    • Selezionare i set di dati di origine e fare clic su Aggiungi trasformazione SQL.

      Una trasformazione SQL consente di inserire una query SQL SELECT in una pipeline per definire trasformazioni complesse o semplici.

      Per ulteriori informazioni, vedere Aggiunta di trasformazioni SQL.

    • Selezionare i set di dati di origine e fare clic su Aggiungi flusso di trasformazione.

      La funzione di progettazione dei flussi consente di creare un flusso di trasformazione con sorgenti, processori e destinazioni per definire trasformazioni semplici o complesse.

      Per ulteriori informazioni, vedere Aggiunta di flussi di trasformazione.

    Nota di suggerimentoÈ possibile anche aggiungere più set di dati da altri attività dati di archiviazione facendo clic su Seleziona dati di origine.
  2. Dopo aver aggiunto le trasformazioni desiderate, convalidare i set di dati facendo clic su Convalida set di dati. Se la convalida rileva errori, correggere gli errori prima di procedere.

    Per ulteriori informazioni, vedere Convalida e regolazione dei set di dati.

  3. Crea un modello di dati

    Fare clic su Modello per impostare le relazioni tra i set di dati inclusi.

    Per ulteriori informazioni, vedere Creazione di un modello dati.

  4. Fare clic su Prepara per preparare l'attività dati e tutti gli artefatti richiesti. Questa operazione può richiedere un po' di tempo.

    È possibile seguire l'avanzamento in Avanzamento preparazione nella parte inferiore dello schermo.

  5. Quando lo stato visualizzato è Preparato, è possibile eseguire l'attività dati.

    Fare clic su ... e quindi su Esegui.

L'attività dati inizierà ora a creare set di dati per trasformare i dati.

Nota informaticaNon è possibile modificare i set di dati inclusi dopo aver iniziato a generare i set di dati.

Pianificazione di un'attività di trasformazione

È possibile pianificare un'attività di trasformazione da aggiornare regolarmente. È possibile configurare una pianificazione basata sul tempo, oppure impostare l'attività da eseguire una volta terminata l'esecuzione delle attività di dati di input.

Fare clic su ... su un'attività di dati e selezionare Pianificazione per creare una pianificazione. L'impostazione della pianificazione predefinita viene ereditata dalle impostazioni nel progetto dati. Per ulteriori informazioni sulle impostazioni predefinite, vedere Trasformare i valori predefiniti.

Per attivare la pianificazione, è sempre necessario impostare Pianificazione su Attiva.

Nota informaticaSe tutti i set di dati nell'attività sono non materializzati, non ci sono attività da eseguire, poiché la trasformazione viene completata rapidamente nelle visualizzazioni. È comunque possibile creare una pianificazione per un'attività di trasformazione non materializzata da eseguire quando vengono soddisfatte le condizioni della pianificazione. L'attività viene completata immediatamente e può attivare un'attività downstream, ad esempio un data mart. Ciò consente di creare pianificazioni per le pipeline basate su un evento che includa le trasformazioni non materializzate senza interrompere il flusso della pipeline.

Pianificazioni basate sul tempo

È possibile utilizzare una pianificazione basata sul tempo per eseguire un'attività indipendentemente da quando vengono aggiornate le sorgenti di input.

  • Selezionare In base a un orario specifico in Avvia attività di dati.

È possibile impostare una pianificazione giornaliera, settimanale o mensile.

Pianificazioni basate su un evento

È possibile usare una pianificazione basata su un evento per eseguire un'attività determinata una volta terminata l'esecuzione delle attività di dati di input.

  • Selezionare In base a un evento specifico in Avvia attività di dati.

È possibile selezionare se si desidera eseguire l'attività quando viene completata una qualsiasi delle attività di input, oppure quando viene completata qualsiasi selezione di attività di input.

Nota informaticaL'attività non verrà eseguita se qualsiasi attività di input o attività downstream è in esecuzione quando viene attivata la pianificazione. L'attività viene ignorata fino all'esecuzione della pianificazione successiva.

Monitoraggio di un'attività di trasformazione

È possibile monitorare lo stato e l'avanzamento di un'attività di trasformazione facendo clic su Monitora.

Per ulteriori informazioni, vedere Monitoraggio di un'attività dati individuale.

Ricaricamento di dati

Se i dati vengono materializzati come tabelle fisiche, è possibile eseguire un ricaricamento manuale delle tabelle. Questa funzionalità è utile quando si presentano dei problemi con una o più tabelle.

Nota informaticaSe i set di dati non vengono materializzati, è necessario aggiornarli per ricaricare i set di dati di origine nell'attività dati a monte.
  1. Aprire l'attività dati e selezionare la scheda Monitora.

  2. Selezionare le tabelle che si desidera ricaricare.

  3. Fare clic su Ricarica tabelle.

Il ricaricamento verrà completato all'esecuzione successiva dell'attività. Il processo di ricaricamento si comporta in modo differente a seconda delle impostazioni della cronologia e del tipo di trasformazione di ciascun set di dati. Questo significa che il processo di ricaricamento tra differenti set di dati in un'attività dati può essere diverso.

È possibile annullare il ricaricamento per le tabelle con ricaricamento in attesa facendo clic su Annulla ricaricamento. Questa azione non avrà alcun effetto sulle tabelle che sono state già ricaricate e i ricaricamenti attualmente in esecuzione verranno completati.

Le attività a valle verranno ricaricate per applicare le modifiche, per evitare la retrodatazione.

Impatto a valle dopo il ricaricamento di un'attività dati di trasferimento

Effetti a valle del ricaricamento della trasformazione

L'impatto a valle dipende dal tipo di operazione di ricaricamento eseguita, oltre al tipo di set di dati immediato a valle. L'elaborazione standard significa che il set di dati reagirà ed elaborerà i dati utilizzando il metodo configurato per quel set di dati specifico.

Esempio: ricaricamento di un set di dati tramite troncamento e caricamento

  • Se il set di dati successivo utilizza le trasformazioni del set di dati, verrà ricaricato alla successiva esecuzione tramite troncamento e caricamento.

  • Se il set di dati successivo è una trasformazione SQL o un flusso di trasformazione, verrà ricaricato tramite il confronto e l'applicazione.

Ricaricamento di un set di dati senza cronologia

In questo caso, non è necessario includere la cronologia. Per ridurre l'elaborazione nella destinazione, il ricaricamento viene completato eseguendo le seguenti operazioni:

  1. Troncando le tabelle.

  2. Caricando i dati correnti dall'attività dati a monte.

Le attività a valle verranno ricaricate per applicare le modifiche.

Ricaricamento di un set di dati con cronologia abilitata

Il ricaricamento viene eseguito nei seguenti modi:

  1. Troncando le tabelle correnti, quelle precedenti e le tabelle delle modifiche.

  2. Caricando i dati dall'attività dati a monte, incluse le tabelle precedenti.

Ricaricamento di un set di dati basato su una trasformazione SQL o di un flusso di trasformazione

  • Tronca e ricarica

    Nota informaticaQuesta opzione può causare la perdita dei dati della cronologia.
    1. Troncando le tabelle correnti e le tabelle delle modifiche.

    2. Eseguendo la query caricandola nelle tabelle correnti.

  • Ricarica e confronta

    1. Eseguendo la query e confrontandola con le tabelle correnti.

    2. Aggiungendo le modifiche.

Nota informaticaQuando un set di dati basato su una trasformazione SQL o su un flusso di trasformazione viene ricaricato dovuto al ricaricamento di un'attività a monte, l'operazione viene completata mediante il confronto e l'applicazione. Se si desidera troncarlo e ricaricarlo, è necessario pubblicare un'operazione di ricaricamento specifica per quelle tabelle. In questo caso, è necessario considerare l'effetto anche sulle tabelle a valle.

Impostazioni di trasformazione

È possibile impostare le proprietà per l'attività dati di trasformazione.

  • Fare clic su Impostazioni.

Nota di avvisoSe l'attività è già stata eseguita, la modifica di un'impostazione diversa da quella di Runtime richiede la ricreazione dei set di dati.

Impostazioni generali

  • Database

    Database da utilizzare nella sorgente dati.

  • Schema attività dati

    È possibile modificare il nome dello schema dell'attività dati di archiviazione. Il nome predefinito è store.

  • Schema interno

    È possibile modificare il nome dello schema attività dati di archiviazione interno. Il nome predefinito è store_internal.

  • Prefisso per tutte le tabelle e le visualizzazioni

    È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.

    Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco.
  • Materializzato

    È possibile scegliere di creare solo visualizzazioni che eseguono trasformazioni istantanee (Non materializzate), oppure di creare sia tabelle che visualizzazioni (Materializzate).

  • Cronologia

    È possibile conservare i dati delle modifiche cronologiche per ricreare facilmente i dati così come apparivano in un momento specifico. È possibile utilizzare le viste della cronologia e le viste della cronologia "live", ossia in tempo reale, per vedere i dati storici.

Impostazioni del tempo di esecuzione

  • Esecuzione parallela

    È possibile impostare il numero massimo di connessioni dati per caricamenti completi su un numero compreso tra 1 e 5.

  • Warehouse

    Nome del data warehouse cloud.

Limitazioni

  • Non è possibile modificare i tipi di dati in un'attività dati di trasformazione quando è selezionata l'opzione Non materializzato.

  • I set di dati basati su SQL non materializzati forniscono solo il set di risultati completo, il filtro incrementale non è supportato. I set di dati basati su SQL non materializzati forniscono anche solo dati correnti e non conservano record cronologici.

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!