Trasformazione dei dati
È possibile creare trasformazioni di dati riutilizzabili e basate su regole come parte della pipeline di dati. È possibile eseguire trasformazioni come parte dell'onboarding dei dati o creare attività dati di trasformazione riutilizzabili. È possibile eseguire trasformazioni a livello di riga e creare set di dati che vengono materializzati come tabelle o creati come viste che eseguono trasformazioni in tempo reale.
-
È possibile eseguire trasformazioni esplicite per set di dati o creare regole globali per trasformare più set di dati. È possibile anche filtrare un set di dati per creare un sottoinsieme di righe.
-
È possibile aggiungere trasformazioni SQL.
Creazione di un attività dati di trasformazione
Il modo più semplice per creare un'attività dati di trasformazione consiste nel fare clic su ... su un'attività dati di archiviazione e quindi selezionare Trasforma dati.
È possibile anche fare clic su Aggiungi nuovo in un progetto dati e selezionare Trasforma dati. In tal caso è necessario definire quale attività dati di origine utilizzare.
-
Definire i dati di origine in Trasforma set di dati.
Selezionare i set di dati di origine e fare clic su Aggiungi per aggiungerli a Destinazione.
È possibile aggiungere una trasformazione SQL selezionando un set di dati e facendo clic su Aggiungi set di dati basato su SQL.
Aggiunta di trasformazioni SQL
Nota di suggerimentoÈ possibile anche aggiungere più set di dati da altri asset di dati di archiviazione facendo clic su Seleziona dati di origine. -
Apportare tutte le modifiche richieste ai set di dati incluse, ad esempio trasformazioni, filtraggio dei dati o aggiunta di colonne.
Per ulteriori informazioni, vedere Gestione dei data mart.
-
Dopo aver aggiunto le trasformazioni desiderate, convalidare i set di dati facendo clic su Convalida set di dati. Se la convalida rileva errori, correggere gli errori prima di procedere.
Per ulteriori informazioni, vedere Convalida e regolazione dei set di dati.
-
Crea un modello di dati
Fare clic su Modello per impostare le relazioni tra i set di dati inclusi.
Per ulteriori informazioni, vedere Creazione di un modello dati.
-
Fare clic su Prepara per preparare l'attività dati e tutti gli artefatti richiesti. Questa operazione può richiedere un po' di tempo.
È possibile seguire l'avanzamento in Avanzamento preparazione nella parte inferiore dello schermo.
-
Quando lo stato visualizzato è Preparato, è possibile eseguire l'attività dati.
Fare clic su ... e quindi su Esegui.
L'attività dati inizierà ora a creare set di dati per trasformare i dati.
Aggiunta di trasformazioni SQL
È possibile includere trasformazioni SQL nelle attività di trasformazione. Una trasformazione SQL consente di inserire una query SQL SELECT in una pipeline per definire trasformazioni complesse o semplici.
-
In Trasforma set di dati, selezionare i set di dati da includere nella query e fare clic su Aggiungi trasformazione SQL.
Per ulteriori informazioni, vedere Aggiunta di trasformazioni SQL.
Pianificazione di un'attività di trasformazione
È possibile pianificare un'attività di trasformazione da aggiornare regolarmente. È possibile configurare una pianificazione basata sul tempo, oppure impostare l'attività da eseguire una volta terminata l'esecuzione delle attività di dati di input.
Fare clic su ... su un'attività di dati e selezionare Pianificazione per creare una pianificazione. L'impostazione della pianificazione predefinita viene ereditata dalle impostazioni nel progetto dati. Per ulteriori informazioni sulle impostazioni predefinite, vedere Trasformare i valori predefiniti.
Per attivare la pianificazione, è sempre necessario impostare Pianificazione su Attiva.
Pianificazioni basate sul tempo
È possibile utilizzare una pianificazione basata sul tempo per eseguire un'attività indipendentemente da quando vengono aggiornate le sorgenti di input.
-
Selezionare In base a un orario specifico in Avvia attività di dati.
È possibile impostare una pianificazione giornaliera, settimanale o mensile.
Pianificazioni basate su un evento
È possibile usare una pianificazione basata su un evento per eseguire un'attività determinata una volta terminata l'esecuzione delle attività di dati di input.
-
Selezionare In base a un evento specifico in Avvia attività di dati.
È possibile selezionare se si desidera eseguire l'attività quando viene completata una qualsiasi delle attività di input, oppure quando viene completata qualsiasi selezione di attività di input.
Monitoraggio di un'attività di trasformazione
È possibile monitorare lo stato e l'avanzamento di un'attività di trasformazione facendo clic su Monitora.
Per ulteriori informazioni, vedere Monitoraggio di un'attività dati individuale.
Ricaricamento di dati
Se i dati vengono materializzati come tabelle fisiche, è possibile eseguire un ricaricamento manuale delle tabelle. Questa funzionalità è utile quando si presentano dei problemi con una o più tabelle. Se i set di dati non vengono materializzati, è necessario aggiornarli per ricaricare i set di dati di origine nell'attività dati a monte.
-
Aprire l'attività dati e selezionare la scheda Monitora.
-
Selezionare le tabelle che si desidera ricaricare.
-
Fare clic su Ricarica tabelle.
Il ricaricamento verrà completato all'esecuzione successiva dell'attività. Il processo di ricaricamento si comporta in modo differente a seconda delle impostazioni della cronologia e del tipo di trasformazione di ciascun set di dati. Questo significa che il processo di ricaricamento tra differenti set di dati in un'attività dati può essere diverso.
È possibile annullare il ricaricamento per le tabelle con ricaricamento in attesa facendo clic su Annulla ricaricamento. Questa azione non avrà alcun effetto sulle tabelle che sono state già ricaricate e i ricaricamenti attualmente in esecuzione verranno completati.
Le attività a valle verranno ricaricate per applicare le modifiche, per evitare la retrodatazione. L'operazione verrà eseguita nei seguenti modi:
-
Effettuando il confronto con il ricaricamento completo e applicando le modifiche.
-
Applicando le modifiche apportate dopo il ricaricamento.
Ricaricamento di un set di dati senza cronologia
In questo caso, non è necessario includere la cronologia. Per ridurre l'elaborazione nella destinazione, il ricaricamento viene completato eseguendo le seguenti operazioni:
-
Troncando le tabelle.
-
Caricando i dati correnti dall'attività dati a monte.
Le attività a valle verranno ricaricate per applicare le modifiche.
Ricaricamento di un set di dati con cronologia abilitata
Il ricaricamento viene eseguito nei seguenti modi:
-
Troncando le tabelle correnti, quelle precedenti e le tabelle delle modifiche.
-
Caricando i dati dall'attività dati a monte, incluse le tabelle precedenti.
Ricaricando un set di dati basato su una trasformazione SQL.
-
Tronca e ricarica
Nota informaticaQuesta opzione può causare la perdita dei dati della cronologia.-
Troncando le tabelle correnti e le tabelle delle modifiche.
-
Eseguendo la query caricandola nelle tabelle correnti.
-
-
Ricarica e confronta
-
Eseguendo la query e confrontandola con le tabelle correnti.
-
Aggiungendo le modifiche.
-
Impostazioni di trasformazione
È possibile impostare le proprietà per l'attività dati di trasformazione.
-
Fare clic su Impostazioni.
Impostazioni generali
-
Database
Database da utilizzare nella sorgente dati.
-
Schema attività dati
È possibile modificare il nome dello schema dell'attività dati di archiviazione. Il nome predefinito è store.
-
Schema interno
È possibile modificare il nome dello schema attività dati di archiviazione interno. Il nome predefinito è store_internal.
- Prefisso per tutte le tabelle e le visualizzazioni
È possibile impostare un prefisso per tutte le tabelle e visualizzazioni create per questa attività.
Nota informaticaSe si desidera utilizzare uno schema del database per più attività, è necessario usare un prefisso univoco. -
Materializzato
È possibile scegliere di creare solo visualizzazioni che eseguono trasformazioni istantanee (Non materializzate), oppure di creare sia tabelle che visualizzazioni (Materializzate).
-
Cronologia
È possibile conservare i dati delle modifiche cronologiche per ricreare facilmente i dati così come apparivano in un momento specifico. È possibile utilizzare le viste della cronologia e le viste della cronologia "live", ossia in tempo reale, per vedere i dati storici.
Impostazioni del tempo di esecuzione
-
Esecuzione parallela
È possibile impostare il numero massimo di connessioni dati per caricamenti completi su un numero compreso tra 1 e 5.
-
Warehouse
Nome del data warehouse cloud.
Limitazioni
-
Non è possibile modificare i tipi di dati in un'attività dati di trasformazione quando è selezionata l'opzione Non materializzato.
-
I set di dati basati su SQL non materializzati forniscono solo il set di risultati completo, il filtro incrementale non è supportato. I set di dati basati su SQL non materializzati forniscono anche solo dati correnti e non conservano record cronologici.