Vai al contenuto principale

Profilatura dei dati

Le statistiche dei profili forniscono analisi in colonne che misurano incidenza, intervalli e valori presenti nei set di dati. Tali metriche descrivono le relazioni tra valori di campo come:

  • conteggio dei valori distinti (cardinalità)
  • valori campione, valori più comuni e frequenza valore
  • ridondanze utili per identificare i valori predefiniti o duplicati potenziali
  • conteggi di valori null, stringa e numerici
  • informazioni sugli intervalli di valori, con inclusi valori min, max, media, somma e deviazione standard

Gli amministratori dati accedono a informazioni tecniche approfondite sui propri set di dati dalla profilatura. Tali informazioni risultano utili nell'organizzazione e nell'assegnazione di risorse e accessi. Gli sviluppatori di app utilizzano le statistiche sui profili e il campionamento dati per ottenere idee e una direzione per la creazione di app e la pianificazione di visualizzazioni. La profilatura campi può aiutare gli analisti dati e gli utenti aziendali a ottenere più rapidamente informazioni strategiche. Possono vedere e visualizzare preziose metriche sui profili di campo senza dover creare prima un'app.

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

Vista riquadri: i campi vengono profilati per metriche significative per il tipo di dati contenuti in tale campo (ad esempio: valori testuali vs numerici)

Vista riquadro profilo

Vista elenco: selezionare le statistiche di interesse di un profilo dall'elenco a discesa Colonne

Vista elenco profilo

Vista Profile Tile (Riquadro profilo)

La vista Profile Tile (Riquadro profilo) è un profilo di campo visivo progettato per visualizzare il contenuto più informativo per tale tipo di campo. Il tipo di scheda vista predefinita mostrato è determinato dal fatto che il numero di valori numerici o testuali sia superiore per tale campo. Ad esempio, per i campi con valori sia testuali sia numerici, il tipo di scheda Most Common Values (Valori più comuni) viene visualizzato per impostazione predefinita se sono presenti più valori testuali, mentre il tipo di scheda di distribuzione numerica Binned Frequency (Frequenza partizionata) viene visualizzato in presenza di più valori numerici nel campo. Viene fornito un elenco selettore a discesa in modo che sia possibile passare al tipo di scheda Most Common Values Frequency (Frequenza valori più comuni) per qualsiasi campo che presenti valori non univoci quando viene selezionato A; oppure è possibile ritornare alla scheda di distribuzione numerica in caso di selezione di #1. Tenere presente che tutti i tipi di scheda includono il numero di valori null, se il campo presenta valori null.

Schede vista riquadri:distribuzione numerica Binned Frequency (Frequenza partizionata), Sample Values (Valori campione) e Most Common Values Frequency (Frequenza valori più comuni)

Schede profilo vista riquadri

Scheda Valori campione

La scheda Valori campione viene mostrata quando tutti i valori sono unici e solo testuali. Elencherà (fino a) i primi tre valori.

Scheda profilo Valori campione
Valori campione scheda profilo

Criteri di profilo Valori campione: I valori dei campi sono profilati con questa scheda quando la cardinalità è alta (tutti i valori distinti). In un caso in cui ogni valore è basato sul testo e univoco, alcuni valori campione forniscono la migliore visione iniziale dei dati di questo tipo di campo.

Ciascuna scheda profilo Valori campione fornisce: 

  • Nome campo
  • Cardinalità
  • Fino a tre valori campione (i campi possono avere meno di tre valori)

Scheda Most Common Values Frequency (Frequenza valori più comuni)

La scheda Most Common Values Frequency (Frequenza valori più comuni) mostra i due valori più comuni e la frequenza di tali valori e tutti gli altri valori combinati come Other (Altro); a meno che non siano presenti solo tre valori, nel cui caso tutti e tre i valori vengono mostrati con la frequenza di ciascun valore. Questa scheda profilo può essere applicata a valori testuali, numerici o con dati misti.

Scheda profilo Most Common Values Frequency (Frequenza valori più comuni) con valori testuali
Frequenza valori più comuni scheda profilo
Scheda profilo Most Common Values Frequency (Frequenza valori più comuni) con valori numerici
Valori più comuni scheda profilo

Criteri Most Common Values Frequency (Frequenza valori più comuni): I campi che presentano pochi valori o una distribuzione asimmetrica di valori vengono profilati rispetto alla scheda Most Common Values Frequency (Frequenza valori più comuni). Questa profilatura si applica solo quando sono presenti più istanze degli stessi valori. Gli utenti possono ottenere rapidamente informazioni strategiche sulla distribuzione di valori di campo. Se i dati di campo includono valori sia testuali sia numerici, e sono presenti più valori testuali che numerici, allora viene mostrata la scheda Most Common Values Frequency (Frequenza valori più comuni). Il selettore Binned Frequency (Frequenza partizionata) viene fornito in presenza di più di tre valori numerici nel campo.

Ciascuna scheda profilo Most Common Values Frequency (Frequenza valori più comuni) fornisce: 

  • Nome campo
  • Cardinalità
  • Valori più comuni e relativa frequenza
  • Frequenza combinata Other (Altro) di valori rimanenti

Scheda Binned Frequency (Frequenza partizionata)

La scheda Binned Frequency (Frequenza partizionata) mostra le informazioni di distribuzione e profilatura rilevanti per i campi numerici; inclusi i valori dati minimi, medi e massimi. Se i dati di campo includono sia valori testuali sia numerici, e sono presenti più valori numerici che valori testuali, allora viene mostrata la scheda Binned Frequency (Frequenza partizionata). Il tipo di scheda Most Common Values Frequency (Frequenza valori più comuni) è disponibile per tutti i campi che presentano valori non univoci.

Scheda profilo Binned Frequency (Frequenza partizionata)

Frequenza partizionata scheda profilo

Ciascuna scheda profilo Binned Frequency (Frequenza partizionata) fornisce: 

  • Nome campo
  • Cardinalità
  • Istogramma che mostra la distribuzione di dati numerici
  • Valore minimo
  • Valore medio (la somma dei numeri divisi per il numero totale di valori nel set di dati)
  • Valore massimo

Profile List view (Vista elenco profilo)

Profile List view (Vista elenco profilo) fornisce una tabella con opzioni statistiche del profilo. Gli utenti controllano le metriche di interesse più significative per il set di dati profilato sotto Columns. Le prime nove statistiche sono pre-selezionate per impostazione predefinita.

Dalla scheda Home dell'hub, navigare in Dati personali, in alternativa, da Catalogo, filtrare per TipiDati.

  1. Selezionare Apri set di dati, quindi selezionare Profilatura dati. Questa azione aprirà la pagina Profilo per il set di dati. Selezionare il pulsante Colonne e posizionare un segno di spunta accanto alle statistiche di interesse di un profilo. Tali statistiche devono essere selezionate (segno di spunta accanto) affinché profilino il campo (colonna) e appaiano nella tabella. L'elenco seguente mostra le statistiche disponibili dei profili.

    Statistiche profilo
    Statistica Descrizione
    Nome Nome di campo (esempio: CategoryID)
    Tipo di dati

    Qlik Sense registra i dati da molti sistemi diversi, per fini informativi sui dati campo (colonna) viene imposta una mappatura del tipo di dati uniforme dall'esterno all'interno. I valori supportati per il tipo di dati includono:

    • Data: una data contenente mese, giorno, anno nel formato ISO 8601 AAAA-MM-GG

    • Ora: un valore temporale contenente ora, minuti, secondi nel formato ISO 8601 hh.mm.ss.sss±hh:mm
    • Datetime: un valore data e ora contenente Anno, Mese, Giorno, Ora, Minuto, Secondo e frazioni in formato AAAA-MM-GGThh.mm.ss.sss
    • Timestamp: un indicatore temporale contenente Anno, Mese, Giorno, Ora, Minuto, Secondo, frazioni e fuso orario nel formato seguente: YYYY-MM-DDThh.mm.ss.sssZ
    • String: dati dei caratteri che rappresentano testo
    • Double: un tipo di dato numerico con precisione doppia a 64 bit IEEE 754 a virgola mobile
    • Decimal: un tipo di dati numerico esatto definito in base alla relativa precisione (numero totale di cifre) e alla scala (numero di cifre alla destra del punto decimale)
    • Integer: numeri interi positivi o negativi
    • Boolean: un valore booleano (TRUE/FALSE)
    • Binary: i dati categorici possono richiedere esattamente due valori possibili, come "1" e "2"
    • Custom: tipo esterno al tipo mappato noto nel sistema
    Valori distinti Cardinalità, il numero di valori distinti presente per questo campo
    Valori campione Valori campione (visualizzazione di 3 valori campione)
    Somma Somma di tutti i valori in questo campo (per i campi stringa viene visualizzato "0")
    Minimo Valore minimo osservato per questo campo (campi numerici)
    Massimo Valore massimo osservato per questo campo (campi numerici)
    Media Valore medio osservato per questo campo
    Tag di sistema Tag di file applicati per identificare il set di codici (p. es. $ascii, $text)
    Deviazione standard Deviazione standard per i campi numerici
    Positivi Numero di valori positivi
    Negativi Numero di valori negativi
    Valori zero Numero di valori "0"
    Stringhe vuote Numero di stringhe vuote
    Lunghezza min. Lunghezza minima osservata dei caratteri
    Lunghezza media Lunghezza media osservata dei caratteri
    Lunghezza max. Lunghezza massima osservata dei caratteri
    Primo valore ordinato Il primo valore (minimo) del peso dell'ordinamento (campi di stringhe)
    Ultimo valore ordinato L'ultimo valore (massimo) del peso dell'ordinamento (campi di stringhe)
    Valori numerici Numero di valori numerici
    Valori di testo Numero di valori di testo
    Valori più frequenti I tre valori più comuni nel campo

Campionamento dei dati

Un campione di dati rappresenta un sottogruppo di un set di dati di popolazione. Rappresenta uno strumento utile per gli amministratori dati al fine di assicurarsi che i dati risultino conformi ai pattern e al formato previsti. I creatori di app possono farsi un'idea dei campi e dei dati dei campi all'interno del contesto di altri record e set di dati. Tali visualizzazioni forniscono una prima analisi dei dati; gli sviluppatori possono iniziare a esplorare i dati per eseguire analisi e rilevare potenziali correlazioni.

Selezionare Campione dati per visualizzare un campione dei primi 20 valori dei dati per ciascun campo.

Campione engine set di dati
  • Selezionare il pulsante freccia elenco a discesa icona quindi premere Campione per visualizzare un campione (n=20) dei valori dei dati per ciascun campo.

Autorizzazioni

Le autorizzazioni sono richieste per profilare e campionare i dati. L'azione di profilatura dei dati è collegata all'autorizzazione più ampia Profilatura sorgente dati. Per ulteriori informazioni, vedere Gestione delle autorizzazioni negli spazi condivisi o Gestione delle autorizzazioni negli spazi gestiti.

  • Profilatura dati > Profilatura sorgente dati

Esempio