Gestione dei metadati a livello di campo e profilazione dei dati
I metadati a livello di campo consentono agli utenti di applicare alias, descrizioni e classificazioni ai campi; queste funzioni aiutano a identificare dati specifici e campi sensibili.
Gli amministratori dati accedono a informazioni tecniche approfondite sui propri set di dati dalla profilazione. Gli sviluppatori di app utilizzano le statistiche dei profili e il campionamento dati per ottenere idee e indicazioni per la creazione di app e la pianificazione di visualizzazioni. La profilazione campi può aiutare gli analisti dati e gli utenti aziendali a ottenere più rapidamente informazioni strategiche. Possono vedere e visualizzare preziose metriche sui profili di campo rapidamente senza bisogno creare prima un'app.
Autorizzazioni
Le autorizzazioni sono richieste per profilare e campionare i dati. È necessario disporre di un ruolo nello spazio del set di dati che consenta la profilatura di sorgente dati. Per ulteriori informazioni, vedere Gestione delle autorizzazioni negli spazi condivisi o Gestione delle autorizzazioni negli spazi gestiti.Managing permissions in shared spacesManaging permissions in managed spaces
Gestione dei metadati a livello di campo
È possibile accedere e modificare i metadati per ogni campo del set di dati dalla scheda Profilo. Selezionare una scheda qualsiasi dalla vista Riquadro , da qualsiasi riga dalla vista Elenco
o da qualsiasi colonna dalla vista Dati
per aprire il pannello Dettagli di quel campo a destra della griglia. I campi di metadati a livello di campo – Alias di campo, Descrizione, Tag e Classificazione – sono opzionali e possono essere definiti e modificati da questo pannello.
Dettaglio | Descrizione |
---|---|
Alias campo | Inserire un nome alternativo opzionale per rendere i nomi dei campi più significativi nell'analisi del profilo. I nomi dei campi alias vengono visualizzati solo nell'analisi del profilo e non influiscono sui nomi delle colonne tecniche. |
Descrizione |
Inserire qualsiasi informazione che possa essere utile agli utenti che visualizzano i metadati del campo e la profilazione del campo. |
Tag | Inserire frammenti di testo per definire e categorizzare questo campo e i suoi dati. |
Classificazione | Selezionare la casella di controllo per Informazioni personali o Informazioni sensibili. |
Metadati a livello di campo per un file XLSX con più fogli

Non tutti i tipi di dati sono profilati per impostazione predefinita. I seguenti invece visualizzano un profilo limitato finché non vengono profilati:
-
QVD
-
Parquet
Per maggiori informazioni sul profilo limitato, vedere Vista limitata del profilo.
Profilazione dei dati
Le statistiche dei profili forniscono analisi in colonne che misurano incidenza, intervalli e valori presenti nei set di dati. Tali metriche descrivono le relazioni tra valori di campo come:
- conteggio dei valori distinti (cardinalità)
- valori campione, valori più comuni e frequenza valore
- ridondanze utili per identificare i valori predefiniti o duplicati potenziali
- conteggi di valori null, stringa e numerici
- informazioni sugli intervalli di valori, con inclusi valori min, max, media, somma e deviazione standard
Il catalogo fornisce tre viste dei dati dei profili di campo:
-
La vista Riquadri è una rappresentazione visiva basata su carte dei campi disposti come una griglia.
-
La vista Elenco è un riepilogo tabulare delle statistiche del profilo configurabile.
-
La vista Tabella elenca i nomi delle colonne dei campi e fino ai primi venti record del set di dati.
Selezionare l'icona Tile, List
o Dati
per scorrere tra le visualizzazioni dei profili.
Vista riquadri
La vista Riquadro profilo è un profilo di campo visivo progettato per visualizzare il contenuto più informativo per tale tipo di campo. Il tipo di scheda vista predefinita mostrato è determinato dal fatto che il numero di valori numerici o testuali sia superiore per tale campo. Ad esempio, per i campi con valori sia testuali sia numerici, il tipo di scheda Most Common Values (Valori più comuni) viene visualizzato per impostazione predefinita se sono presenti più valori testuali, mentre il tipo di scheda di distribuzione numerica Binned Frequency (Frequenza partizionata) viene visualizzato in presenza di più valori numerici nel campo. Viene fornito un elenco selettore a discesa in modo che sia possibile passare al tipo di scheda Most Common Values (Valori più comuni) per qualsiasi campo che presenti valori non univoci quando viene selezionato ; oppure è possibile ritornare alla scheda di distribuzione numerica in caso di selezione di Binned Frequency (Frequenza partizionata)
. Tenere presente che tutti i tipi di scheda includono il numero di valori null, se il campo presenta valori null.
Vista riquadri: i campi vengono profilati per metriche significative per il tipo di dati contenuti in tale campo (ad esempio: valori testuali vs numerici)

Scheda Valori campione
La scheda Valori campione viene mostrata quando tutti i valori sono unici e solo testuali. Vengono elencati (fino a) i primi tre valori e il numero totale di valori unici aggiuntivi.

Criteri di profilo Valori campione: i valori dei campi sono profilati con questa scheda quando la cardinalità è alta (tutti i valori distinti). In un caso in cui ogni valore è basato sul testo e univoco, alcuni valori campione forniscono la migliore visione iniziale dei dati di questo tipo di campo.
Ciascuna scheda profilo Valori campione fornisce:
- Nome campo
- Cardinalità (valori distinti)
- Fino a tre valori campione (i campi possono avere meno di tre valori)
Scheda Frequenza valori più comuni
La scheda Most Common Values Frequency (Frequenza valori più comuni) mostra i cinque valori più comuni e la loro frequenza. Se ci sono più valori di cinque valori distinti, questi vengono combinati e visualizzati come Altro. Se in qualche campo mancano dei valori, il totale viene visualizzato come Nullo. Questa scheda profilo può esseree applicata a valori testuali, numerici o con dati misti.

Criteri Frequenza valori più comuni: i campi che presentano pochi valori o una distribuzione asimmetrica di valori vengono profilati rispetto alla scheda Frequenza valori più comuni. Questa profilazione si applica solo quando sono presenti più istanze degli stessi valori. Gli utenti possono ottenere rapidamente informazioni strategiche sulla distribuzione di valori di campo. Se i dati di campo includono valori sia testuali sia numerici, e sono presenti più valori testuali che numerici, allora viene mostrata la scheda Most Common Values Frequency (Frequenza valori più comuni). Il selettore Binned Frequency (Frequenza partizionata) viene fornito in presenza di più di tre valori numerici nel campo.
Ciascuna scheda profilo Frequenza valori più comuni fornisce:
- Nome campo
- Cardinalità (valori distinti)
- Valori più comuni e relativa frequenza
- Frequenza combinata Other (Altro) di valori rimanenti
Scheda Frequenza partizionata
La scheda Binned Frequency (Frequenza partizionata) mostra le informazioni di distribuzione e profilazione rilevanti per i campi numerici; inclusi i valori dati minimi, medi e massimi. Se i dati di campo includono sia valori testuali sia numerici, e sono presenti più valori numerici che valori testuali, allora viene mostrata la scheda Binned Frequency (Frequenza partizionata). Il tipo di scheda Most Common Values Frequency (Frequenza valori più comuni) è disponibile per tutti i campi che presentano valori non univoci.
Scheda vista riquadri: distribuzione numerica Frequenza partizionata

Ciascuna scheda profilo Frequenza partizionata fornisce:
- Nome campo
- Cardinalità (valori distinti)
- Istogramma che mostra la distribuzione di dati numerici
- Valore minimo
- Valore medio (la somma dei numeri divisi per il numero totale di valori nel set di dati)
- Valore massimo
Vista elenco
Profile List view (Vista elenco profilo) fornisce una tabella con opzioni statistiche del profilo. Gli utenti controllano le metriche di interesse che sono più significative per il set di dati nello strumento di selezione delle colonne , individuabile scorrendo al bordo all'estrema destra della tabella. Le prime nove statistiche sono preselezionate per impostazione predefinita.
Vista elenco: selezionare le statistiche del profilo di interesse dallo strumento di selezione delle colonne trovato scorrendo a destra sulla tabella

Vista Dati
La vista dati del profilo mostra il set di dati dell'utente come una tabella dati lineare con i nomi delle colonne di campo e (fino a) i primi venti valori.
Vista dati: vengono mostrati i nomi delle colonne del set di dati e i primi venti record

Vista limitata del profilo
Alcuni set di dati non vengono profilati per impostazione predefinita. Invece, Profilo visualizza un profilo limitato dei dati. È possibile profilare i dati facendo clic su Profilo set di dati.
I seguenti tipi di dati visualizzano una vista del profilo limitata fino alla profilazione:
-
QVD
-
Parquet
Un profilo limitato di un set di dati QVD
