Gestione dei data mart
È possibile gestire i set di dati inclusi nelle attività di dati Trasferimento, Archiviazione, Trasformazione, Data mart e Replica per creare trasformazioni, filtrare i dati e aggiungere colonne.
I set di dati inclusi sono elencati in Set di dati nella vista Progettazione. È possibile selezionare le colonne da visualizzare con lo strumento di selezione delle colonne ().
Regole di trasformazione e trasformazioni esplicite
È possibile eseguire trasformazioni sia globali che esplicite.
Regole di trasformazione
È possibile eseguire trasformazioni globali creando una regola di trasformazione che utilizza % come carattere jolly nell'ambito da applicare a tutti i set di dati corrispondenti.
-
Fare clic su Regole, quindi su Aggiungi regola per creare una nuova regola di trasformazione.
Per ulteriori informazioni, vedere Creazione di regole per la trasformazione di set di dati.
Le regole di trasformazione sono indicate da un angolo viola scuro sull'attributo interessato.
Trasformazioni esplicite
Si creano trasformazioni esplicite:
-
Quando si usa Modifica per modificare un attributo di colonna
-
Quando si usa Rinomina su un set di dati.
-
Quando si aggiunge una colonna.
Le trasformazioni esplicite hanno la precedenza sulle trasformazioni globali e sono indicate da un angolo viola chiaro sull'attributo interessato.
Modelli del set di dati
I set di dati possono essere basati sulla sorgente o sulla destinazione, a seconda del tipo di attività e delle operazioni nell'attività. Il modello del set di dati utilizzato influisce sul comportamento della pipeline a livello delle modifiche alla sorgente e sulle operazioni che è possibile eseguire.
-
Set di dati basati sulla sorgente
Il set di dati si basa sui set di dati di origine e conterrà solo le modifiche ai metadati. Le modifiche ai dati della sorgente vengono applicate automaticamente e possono causare cambiamenti in tutte le attività a valle. Non è possibile modificare l'ordine delle colonne, né cambiare il set di dati di origine.
I seguenti tipi di attività utilizzano sempre un modello di set di dati basato sulla sorgente: Trasferimento, Archiviazione, Dati registrati, Replica e Trasferimento in un data lake.
-
Set di dati basati sulla destinazione
Il set di dati si basa sui metadati di destinazione. Se una colonna viene aggiunta o rimossa dalla sorgente, la modifica non viene applicata automaticamente all'attività a valle successiva. È possibile modificare l'ordine delle colonne e cambiare la il set di dati di origine. In questo modo l'attività è più contenuta e consente di controllare l'effetto delle modifiche apportate alla sorgente.
I seguenti tipi di attività possono utilizzare un modello di set di dati basato sulla destinazione: Trasformazione e Data mart. In alcuni casi si utilizza un modello basato sulla sorgente per le attività di Trasformazione in base all'operazione.
-
Se una trasformazione SQL o un flusso di trasformazione esegue una selezione di colonne, il set di dati sarà basato sulla destinazione. Ad esempio, ciò succede se si utilizza SELECT A, B, C from XYZ in una trasformazione SQL o se si usa il processore Seleziona colonne in un flusso di trasformazione.
-
Se le colonne predefinite vengono mantenute, il set di dati si basa sulla sorgente. Ad esempio, ciò avviene se si utilizza SELECT * from XYZ in una trasformazione SQL.
-
Aggiornamento di progetti da un modello basato sulla sorgente a un modello basato sulla destinazione
I progetti esistenti verranno aggiornati al modello di set di dati basato sulla destinazione, se applicabile. Quando apri un progetto per la prima volta, verrà visualizzata una guida del processo di aggiornamento. Ci sono alcune considerazioni da fare quando si importano ed esportano progetti con diversi modelli di dati.
-
Non è possibile importare un progetto con un modello basato sulla sorgente in un progetto con un modello basato sulla destinazione.
Importare il progetto con un modello basato sulla sorgente in un nuovo progetto, aggiornare il nuovo progetto ed esportare il progetto risultante. Ora è possibile reimportare questo progetto nel progetto con un modello basato sulla destinazione.
-
Non è possibile importare un progetto con un modello basato sulla destinazione in un progetto con un modello basato sulla sorgente.
Prima di importare un progetto con un modello basato sulla destinazione, aggiornare il progetto a un modello basato sulla destinazione.
Filtrare un set di dati
È possibile filtrare i dati per creare un sottoinsieme di righe, se richiesto.
-
Fare clic su Filtro.
Per ulteriori informazioni, vedere Filtrazione di una serie di dati.
Rinominare un set di dati
È possibile rinominare un set di dati.
-
Fare clic su su un set di dati, quindi su Rinomina.
Aggiungere colonne
È possibile aggiungere colonne con trasformazioni a livello di riga, se richiesto.
-
Fare clic su Aggiungi colonna
Per ulteriori informazioni, vedere Aggiunta di colonne a un set di dati.
Modificare una colonna
È possibile modificare le proprietà delle colonne selezionando una colonna e facendo clic su Modifica.
-
Nome
-
Chiave
Impostare una colonna come chiave primaria. È inoltre possibile impostare le chiavi selezionandole o deselezionandole nella colonna Chiave.
-
Nullable
-
Tipo di dati
Impostare il tipo di dati della colonna. Per alcuni tipi di dati è possibile impostare una proprietà aggiuntiva, ad esempio Lunghezza.
Nozioni sull'impatto della modifica di un tipo di dati
Vi sono due casi di utilizzo comuni per modificare le dimensioni del tipo di dati o l'adozione di un tipo di dati differente:
- Acquisizione dei dati che non rientrano nel tipo di dati corrente.
- Un requisito per una maggiore accuratezza numerica. Per esempio, la modifica di SMALLINT in DECIMAL (p,s).
Nella maggior parte dei casi, la modifica di un tipo di dati daranno luogo a un'operazione ALTER TABLE, prevenendo quindi la perdita di dati. Per esempio, se il tipo di dati precedente era STRING (25) e il nuovo tipo di dati è STRING (50), i dati nella colonna con il nuovo tipo di dati verranno aggiornati senza problemi. Tuttavia, in alcuni casi, la modifica di un tipo di dati porterà all'eliminazione e alla ricreazione della tabella. Per esempio, se il tipo di dati precedente della colonna era NUMBER e si modifica in DATE, la tabella verrà eliminata e ricreata, poiché non è possibile convertire i numeri in date. Allo stesso modo, se la piattaforma di destinazione non supporta le operazioni della tabella ALTER (ad esempio Databricks), la tabella verrà eliminata e ricreata.
In alcuni casi è teoricamente possibile alterare una tabella ma, a causa della complessità sottostante, l'attività dati eliminerà e ricreerà la tabella. Infine, vi sono casi in cui l'operazione di eliminazione e ricreazione viene attivata da una perdita potenziale di dati anziché da una perdita di dati effettiva. Per esempio, se si modifica STRING(25) in STRING(1), si verificherà una perdita di dati se i dati acquisiti non si adattano a STRING(1). Tuttavia, è possibile che STRING(25) contenga sempre solo un carattere, quindi in pratica non si verifica alcuna perdita di dati, ma la tabella verrà comunque eliminata e ricreata a causa della perdita di dati potenziale.
Le modifiche ai tipi di dati che richiedono che la tabella venga eliminata e ricreata, indipendentemente dalla piattaforma di destinazione
La modifica dei seguenti tipi di dati determinerà l'eliminazione e la ricreazione della tabella.
- BYTES
- BLOB
- CLOB
- NCLOB
Le piattaforme di destinazione che supportano le modifiche alle dimensioni del tipo di dati senza eliminare e ricreare la tabella
Quando si utilizza Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server e Azure Synapse Analytics, è possibile modificare le dimensioni di determinati tipi di dati senza eliminare e ricreare la tabella. La seguente tabella elenca i tipi di dati supportati per ciascuna delle piattaforme indicate sopra.
Tipo di dati | Snowflake | Google BigQuery | Azure Synapse Analytics | Microsoft SQL Server | Amazon Redshift |
---|---|---|---|---|---|
INT1 |
No |
Sì |
Sì |
Sì |
No |
INT2 |
No |
Sì |
Sì |
Sì |
No |
INT4 |
No |
Sì |
Sì |
Sì |
No |
INT8 |
No |
Sì |
Sì |
Sì |
No |
REAL4 |
No |
No |
Sì |
Sì |
No |
REAL8 |
No |
No |
Sì |
Sì |
No |
UINT1 |
No |
Sì |
Sì |
Sì |
No |
UINT2 |
No |
Sì |
Sì |
Sì |
No |
UNIT4 |
No |
Sì |
Sì |
Sì |
No |
UNIT8 |
No |
Sì |
Sì |
Sì |
No |
NUMERIC |
Sì |
Sì |
Sì |
Sì |
No |
STRING |
Sì |
Sì |
Sì |
Sì |
Sì |
WSTRING |
No |
Sì |
Sì |
Sì |
No |
Le piattaforme di destinazione che supportano la modifica dei tipi di dati in STRING senza eliminare e ricreare la tabella
Quando si spostano i dati su Microsoft SQL Server e Azure Synapse Analytics, è possibile modificare i seguenti tipi di dati in STRING senza bisogno di eliminare e ricreare la tabella:
- BOOLEAN
- DATE
- TIME
- DATETIME
- INT1
- INT2
- INT4
- INT8
- REAL4
- REAL8
- UINT1
- UINT2
- UNIT4
- UNIT8
- NUMERIC
- WSTRING (supportata solo con Azure Synapse Analytics)
Rimozione di colonne
È possibile rimuovere una o più colonne da un set di dati.
-
Selezionare le colonne da rimuovere e fai clic su Rimuovi.
Se si desidera visualizzare le colonne rimosse, fare clic su Mostra colonne rimosse. Le colonne rimosse sono indicate con testo barrato. È possibile recuperare una colonna rimossa selezionandola e facendo clic su Ripristina.
Ripristino di modifiche esplicite alle colonne
È possibile annullare tutte le modifiche esplicite a una o più colonne.
-
Selezionare le colonne in cui ripristinare le modifiche e fare clic su Ripristina.
Le modifiche alle regole di trasformazione globale non verranno ripristinate.
Se si ripristina una colonna aggiunta, verrà rimossa.
Impostazioni set di dati
È possibile modificare le impostazioni del set di dati. L'impostazione predefinita è ereditare l'impostazione dell'asset di dati, ma è possibile anche modificare un'impostazione in modo che sia esplicitamente attivata o disattivata.
-
Fare clic su su un set di dati, quindi su Impostazioni.
Visualizzazione di dati
È possibile visualizzare un campione dei dati per verificare e convalidare il modello dati, poiché si sta definendo la pipeline di dati.
È necessario soddisfare i seguenti requisiti:
-
La visualizzazione dei dati è abilitata a livello tenant in Amministrazione.
Abilitare Impostazioni > Controllo funzione > Visualizzazione dei dati in Integrazione dati.
-
Si dispone del ruolo Può visualizzare i dati per lo spazio in cui risiede la connessione.
-
Si dispone del ruolo Può visualizzare per lo spazio in cui risiede il progetto.
Per visualizzare i dati campione nella scheda Set di dati nella vista Progettazione:
-
Fare clic su Visualizza dati in Oggetti fisici.
Viene visualizzato un campione dei dati. È possibile impostare il numero di righe che si desidera includere nel campione nell'opzione Numero di righe.
Per passare dai set di dati alle tabelle e viceversa:
-
Selezionare Set di dati per visualizzare la rappresentazione logica dei dati.
-
Selezionare Oggetti fisici per visualizzare la rappresentazione fisica nel database come tabelle e visualizzazioni.
Nota notizieQuesta opzione non è disponibile se la rappresentazione fisica non è stata ancora creata.
E possibile filtrare i dati campione in due modi:
-
Utilizzare per filtrare i dati campione che si desidera recuperare.
Per esempio, se si utilizza il filtro ${OrderYear}>2023 e l'opzione Numero di righe è impostata su 10, verrà visualizzato un campione di 10 ordini realizzati nel 2024.
-
Filtrare i dati campione in base a una colonna specifica.
Questa operazione interesserà solo i dati campione esistenti. Se si è utilizzato per includere solo gli ordini realizzati nel 2024 e si imposta il filtro di colonna per mostrare gli ordini del 2022, verrà visualizzato un campione vuoto come risultato.
È possibile anche ordinare il campione dati in base a una colonna specifica. Questa operazione interesserà solo i dati campione esistenti. Se si è utilizzato per includere solo gli ordini realizzati nel 2024 e si inverte l'ordinamento, i dati campione conterranno comunque gli ordini del 2024.
È possibile nascondere le colonne nella visualizzazione dati:
-
Nascondere una singola colonna facendo clic su sulla colonna e quindi su Nascondi colonna.
-
Nascondere più colonne facendo clic su su una delle colonne e quindi su Visualizza colonne. Questa opzione consente di controllare la visibilità di tutte le colonne nella visualizzazione.
Convalida e regolazione dei set di dati
È possibile convalidare tutti i set di dati inclusi nell'attività di dati.
Espandere Convalida e regola per visualizzare tutti gli errori di convalida e le modifiche di progettazione.
Convalida dei set di dati
-
Fare clic su Convalida set di dati per convalidare i set di dati.
La convalida include controllare che:
-
Tutte le tabelle abbiano una chiave primaria
-
Non ci siano attributi mancanti.
-
Non siano presenti duplicati dei nomi di tabelle o colonne.
Si riceverà anche un elenco delle modifiche al design rispetto alla fonte:
-
Tabelle e colonne aggiunte
-
Tabelle e colonne eliminate
-
Tabelle e colonne rinominate
-
Chiavi primarie e tipi di dati modificati
Espandere Convalida e regola per visualizzare tutti gli errori di convalida e le modifiche di progettazione.
-
Correggere gli errori di convalida, quindi convalidare nuovamente i set di dati.
-
La maggior parte delle modifiche alla progettazione può essere regolata automaticamente, ad eccezione delle modifiche a chiavi primarie o a tipi di dati. In questo caso, è necessario sincronizzare i set di dati.
Preparazione dei set di dati
I set di dati possono essere preparati per regolare le modifiche di progettazione senza perdite di dati, laddove possibile. Nel caso in cui siano presenti delle modifiche di progettazione che non possono essere regolate senza perdite di dati, l'utente avrà la possibilità di ricreare le tabelle dalla sorgente con perdite di dati.
Ciò richiede l'arresto dell'attività.
-
Fare clic su , quindi su Prepara.
Quando i set di dati sono preparati, convalidarli prima di riavviare l'attività di archiviazione.
Ricreare set di dati
È possibile ricreare i set di dati dalla sorgente. Quando si ricrea un set di dati, si verificherà una perdita di dati. Finché di dispone dei dati di origine, sarà possibile ricaricarli dalla sorgente.
Ciò richiede l'arresto dell'attività.
-
Fare clic su , quindi su Ricrea.
Limitazioni
-
In Google BigQuery, se si elimina o rinomina una colonna, ciò ricreerà la tabella e porterà alla perdita di dati.