Vai al contenuto principale Passa a contenuto complementare

Trasformazione dei dati

È possibile creare trasformazioni di dati riutilizzabili e basate su regole come parte della pipeline di dati. È possibile eseguire trasformazioni come parte dell'onboarding dei dati o creare attività dati di trasformazione riutilizzabili. È possibile eseguire trasformazioni a livello di riga e creare set di dati che vengono materializzati come tabelle o creati come viste che eseguono trasformazioni in tempo reale.

  • È possibile eseguire trasformazioni esplicite per set di dati o creare regole globali per trasformare più set di dati. È possibile anche filtrare un set di dati per creare un sottoinsieme di righe.

  • È possibile aggiungere trasformazioni SQL.

Nota informaticaLe attività dati vengono eseguite nel contesto del relativo proprietario. Per ulteriori informazioni su ruoli e autorizzazioni necessari, vedere Ruoli e autorizzazioni dello spazio dati.

Creazione di un attività dati di trasformazione

Il modo più semplice per creare un'attività dati di trasformazione consiste nel fare clic su ... su un'attività dati di archiviazione e quindi selezionare Trasforma dati.

È possibile anche fare clic su Aggiungi nuovo in un progetto dati e selezionare Trasforma dati. In tal caso è necessario definire quale attività dati di origine utilizzare.

  1. Definire i dati di origine in Trasforma set di dati.

    Selezionare i set di dati di origine e fare clic su Aggiungi per aggiungerli a Destinazione.

    È possibile aggiungere una trasformazione SQL selezionando un set di dati e facendo clic su Aggiungi set di dati basato su SQL.

    Aggiunta di trasformazioni SQL

    Nota di suggerimentoÈ possibile anche aggiungere più set di dati da altri asset di dati di archiviazione facendo clic su Seleziona dati di origine.
  2. Apportare tutte le modifiche richieste ai set di dati incluse, ad esempio trasformazioni, filtraggio dei dati o aggiunta di colonne.

    Per ulteriori informazioni, vedere Gestione dei data mart.

  3. Dopo aver aggiunto le trasformazioni desiderate, convalidare i set di dati facendo clic su Convalida set di dati. Se la convalida rileva errori, correggere gli errori prima di procedere.

    Per ulteriori informazioni, vedere Convalida e regolazione dei set di dati.

  4. Crea un modello di dati

    Fare clic su Modello per impostare le relazioni tra i set di dati inclusi.

    Per ulteriori informazioni, vedere Creazione di un modello dati.

  5. Fare clic su Prepara per preparare l'attività dati e tutti gli artefatti richiesti. Questa operazione può richiedere un po' di tempo.

    È possibile seguire l'avanzamento in Avanzamento preparazione nella parte inferiore dello schermo.

  6. Quando lo stato visualizzato è Preparato, è possibile eseguire l'attività dati.

    Fare clic su ... e quindi su Esegui.

L'attività dati inizierà ora a creare set di dati per trasformare i dati.

Nota informaticaNon è possibile modificare i set di dati inclusi dopo aver iniziato a generare i set di dati.

Aggiunta di trasformazioni SQL

È possibile includere trasformazioni SQL nelle attività di trasformazione. Una trasformazione SQL consente di inserire una query SQL SELECT in una pipeline per definire trasformazioni complesse o semplici.

  • In Trasforma set di dati, selezionare i set di dati da includere nella query e fare clic su Aggiungi trasformazione SQL.

Per ulteriori informazioni, vedere Aggiunta di trasformazioni SQL.

Pianificazione di un'attività di trasformazione

È possibile pianificare un'attività di trasformazione da aggiornare regolarmente. È possibile configurare una pianificazione basata sul tempo, oppure impostare l'attività da eseguire una volta terminata l'esecuzione delle attività di dati di input.

Fare clic su ... su un'attività di dati e selezionare Pianificazione per creare una pianificazione. L'impostazione della pianificazione predefinita viene ereditata dalle impostazioni nel progetto dati. Per ulteriori informazioni sulle impostazioni predefinite, vedere Trasformare i valori predefiniti.

Per attivare la pianificazione, è sempre necessario impostare Pianificazione su Attiva.

Nota informaticaSe tutti i set di dati nell'attività sono non materializzati, non ci sono attività da eseguire, poiché la trasformazione viene completata rapidamente nelle visualizzazioni. È comunque possibile creare una pianificazione per un'attività di trasformazione non materializzata da eseguire quando vengono soddisfatte le condizioni della pianificazione. L'attività viene completata immediatamente e può attivare un'attività downstream, ad esempio un data mart. Ciò consente di creare pianificazioni per le pipeline basate su un evento che includa le trasformazioni non materializzate senza interrompere il flusso della pipeline.

Pianificazioni basate sul tempo

È possibile utilizzare una pianificazione basata sul tempo per eseguire un'attività indipendentemente da quando vengono aggiornate le sorgenti di input.

  • Selezionare In base a un orario specifico in Avvia attività di dati.

È possibile impostare una pianificazione giornaliera, settimanale o mensile.

Pianificazioni basate su un evento

È possibile usare una pianificazione basata su un evento per eseguire un'attività determinata una volta terminata l'esecuzione delle attività di dati di input.

  • Selezionare In base a un evento specifico in Avvia attività di dati.

È possibile selezionare se si desidera eseguire l'attività quando viene completata una qualsiasi delle attività di input, oppure quando viene completata qualsiasi selezione di attività di input.

Nota informaticaL'attività non verrà eseguita se qualsiasi attività di input o attività downstream è in esecuzione quando viene attivata la pianificazione. L'attività viene ignorata fino all'esecuzione della pianificazione successiva.

Monitoraggio di un'attività di trasformazione

È possibile monitorare lo stato e l'avanzamento di un'attività di trasformazione facendo clic su Monitora.

Per ulteriori informazioni, vedere Monitoraggio di un'attività dati individuale.

Ricaricamento di dati

Se i dati vengono materializzati come tabelle fisiche, è possibile eseguire un ricaricamento manuale delle tabelle. Questa funzionalità è utile quando si presentano dei problemi con una o più tabelle. Se i set di dati non vengono materializzati, è necessario aggiornarli per ricaricare i set di dati di origine nell'attività dati a monte.

  1. Aprire l'attività dati e selezionare la scheda Monitora.

  2. Selezionare le tabelle che si desidera ricaricare.

  3. Fare clic su Ricarica tabelle.

Il ricaricamento verrà completato all'esecuzione successiva dell'attività. Il processo di ricaricamento si comporta in modo differente a seconda delle impostazioni della cronologia e del tipo di trasformazione di ciascun set di dati. Questo significa che il processo di ricaricamento tra differenti set di dati in un'attività dati può essere diverso.

È possibile annullare il ricaricamento per le tabelle con ricaricamento in attesa facendo clic su Annulla ricaricamento. Questa azione non avrà alcun effetto sulle tabelle che sono state già ricaricate e i ricaricamenti attualmente in esecuzione verranno completati.

Le attività a valle verranno ricaricate per applicare le modifiche, per evitare la retrodatazione. L'operazione verrà eseguita nei seguenti modi:

  1. Effettuando il confronto con il ricaricamento completo e applicando le modifiche.

  2. Applicando le modifiche apportate dopo il ricaricamento.

Ricaricamento di un set di dati senza cronologia

In questo caso, non è necessario includere la cronologia. Per ridurre l'elaborazione nella destinazione, il ricaricamento viene completato eseguendo le seguenti operazioni:

  1. Troncando le tabelle.

  2. Caricando i dati correnti dall'attività dati a monte.

Le attività a valle verranno ricaricate per applicare le modifiche.

Ricaricamento di un set di dati con cronologia abilitata

Il ricaricamento viene eseguito nei seguenti modi:

  1. Troncando le tabelle correnti, quelle precedenti e le tabelle delle modifiche.

  2. Caricando i dati dall'attività dati a monte, incluse le tabelle precedenti.

Ricaricando un set di dati basato su una trasformazione SQL.

  • Tronca e ricarica

    Nota informaticaQuesta opzione può causare la perdita dei dati della cronologia.
    1. Troncando le tabelle correnti e le tabelle delle modifiche.

    2. Eseguendo la query caricandola nelle tabelle correnti.

  • Ricarica e confronta

    1. Eseguendo la query e confrontandola con le tabelle correnti.

    2. Aggiungendo le modifiche.

Nota informaticaQuando un set di dati basato su una trasformazione SQL viene ricaricato dovuto al ricaricamento di un'attività a monte, l'operazione viene completata mediante il confronto e l'applicazione. Se si desidera troncarlo e ricaricarlo, è necessario pubblicare un'operazione di ricaricamento specifica per quelle tabelle. In questo caso, è necessario considerare l'effetto anche sulle tabelle a valle.

Impostazioni di trasformazione

È possibile impostare le proprietà per l'attività dati di trasformazione.

  • Fare clic su Impostazioni.

Nota di avvisoSe l'attività è già stata eseguita, la modifica di un'impostazione diversa da quella di Runtime richiede la ricreazione dei set di dati.

Impostazioni generali

  • Database

    Database da utilizzare nella sorgente dati.

  • Schema attività dati

    È possibile modificare il nome dello schema dell'attività dati di archiviazione. Il nome predefinito è store.

  • Schema interno

    È possibile modificare il nome dello schema attività dati di archiviazione interno. Il nome predefinito è store_internal.

  • Prefisso per tutte le tabelle e le visualizzazioni

    È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.

    Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco.
  • Materializzato

    È possibile scegliere di creare solo visualizzazioni che eseguono trasformazioni istantanee (Non materializzate), oppure di creare sia tabelle che visualizzazioni (Materializzate).

  • Cronologia

    È possibile conservare i dati delle modifiche cronologiche per ricreare facilmente i dati così come apparivano in un momento specifico. È possibile utilizzare le viste della cronologia e le viste della cronologia "live", ossia in tempo reale, per vedere i dati storici.

Impostazioni del tempo di esecuzione

  • Esecuzione parallela

    È possibile impostare il numero massimo di connessioni dati per caricamenti completi su un numero compreso tra 1 e 5.

  • Warehouse

    Nome del data warehouse cloud.

Limitazioni

  • Non è possibile modificare i tipi di dati in un'attività dati di trasformazione quando è selezionata l'opzione Non materializzato.

  • I set di dati basati su SQL non materializzati forniscono solo il set di risultati completo, il filtro incrementale non è supportato. I set di dati basati su SQL non materializzati forniscono anche solo dati correnti e non conservano record cronologici.

Ulteriori informazioni

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!