Vai al contenuto principale Passa a contenuto complementare

Qualità e individuazione dei dati

Una volta riaperto un set di dati, è possibile esaminare diverse parti della panoramica per scoprire di più sulla qualità generale, il suo schema, le statistiche di qualità e i tipi semantici di ogni colonna.

Indicatori di qualità del set di dati

Quando si apre la panoramica di un set di dati che è stato appena registrato, la maggior parte delle informazioni viene visualizzata in grigio. Per calcolare la qualità dei dati la prima volta, fare clic sul pulsante Calcola. Se la qualità è già stata calcolata prima, ma si desidera assicurarsi che i dati siano aggiornati, Fare clic sul pulsante Aggiorna.

Per ogni calcolo o aggiornamento in pushdown sono necessari dei crediti di Snowflake. Per ulteriori informazioni, vedere Data quality for connection-based datasets.

La qualità vene visualizzata in due sezioni.

  • L'area Qualità dei dati, che include:

    • La ripartizione di valori validi, non validi e vuoti in tutto il set di dati nella forma di una barra di qualità con tre colori, insieme alle rispettive percentuali.

    • Un punteggio di Validità, che indica la percentuale di valori validi, senza considerare i valori vuoti.

    • Un punteggio di Completezza, che indica la percentuale di valori che non sono vuoti.

    • L'ora dell'Ultimo aggiornamento, che indica l'ultimo aggiornamento della sorgente dati. Per ulteriori informazioni, vedere Aggiornamento dei dati.

  • L'area Schema che mostra i differenti campi del set di dati, i tipi di dati o i tipi semantici che sono stati applicati, oltre a una barra di qualità per ogni campo del set di dati.

Nota di suggerimentoPer i set di dati basati sulla connessione, se non è possibile rilevare lo schema e la qualità dei set di dati, verificare se il campo Ruolo è compilato correttamente per la connessione configurata nell'hub dei Servizi di analisi Qlik, oppure se il ruolo stesso concede le autorizzazioni necessarie nella tabella del database.

Individuazione dei tipi semantici

A ogni campo di un set di dati viene assegnato automaticamente un tipo semantico, che consente di descriverne meglio il contenuto. In background viene eseguita un'operazione di individuazione dei dati per determinare i tipi da assegnare.

L'individuazione dei dati calcola quanti valori in una colonna corrispondono a ogni tipo semantico e, se il risultato è maggiore del 40%, assegna il tipo semantico per la colonna.

Come vene calcolata la percentuale?

Questa percentuale è la somma di due percentuali:

  • Una percentuale rappresenta il numero di valori che corrisponde al tipo semantico, con assegnazione fino al 100%. Per determinare se un valore corrisponde a un tipo semantico, l'individuazione dei dati dipende dal tipo di tipo semantico:

    • Dizionario: il valore corrisponde a un valore del dizionario? La punteggiatura, il caso, gli spazi e gli accenti vengono ignorati.

    • Espressione regolare: il valore corrisponde all'espressione regolare?

    • Composito: il valore individuato è incluso almeno in un figlio?

      Un tipo composito è un gruppo di tipi semantici esistenti, chiamati figli.

    Se la risposta è positiva, il valore è considerato valido.

  • L'altra percentuale rappresenta la somiglianza tra il nome della colonna e il nome del tipo semantico; con assegnazione fino al 10%.

    Per confrontare i nomi:

    • viene utilizzato l'algoritmo Levenshtein. Calcola il numero minimo di modifiche (inserimenti, eliminazioni o sostituzioni) richieste per trasformare una stringa in un'altra.

    • Il caso e gli accenti vengono ignorati.

    • Se le stringhe contengono spazi, l'ordine delle parole viene ignorato. Per esempio, "US Phone" e "Phone US" sono considerati identici.

    La percentuale massima è il 100%. Se tutti i valori corrispondono a un tipo semantico e il nome della colonna è identico al nome del tipo semantico, il risultato è sempre il 100%.

Identificazione dei tipi di dati

Invece dei tipi semantici, è possibile assegnare anche i tipi di dati nativi. Se nessun tipo semantico ottiene più del 40%, l'individuazione dei dati assegna in modo automatico un tipo di dati.

Per determinare a quale tipo appartiene un valore, l'individuazione dei dati segue un ordine:

  1. Il valore è vuoto?

  2. Il valore è di tipo booleano? true e false sono gli unici valori considerati di tipo booleano.

  3. Il valore è di tipo numero intero?

  4. Il valore è di tipo decimale?

  5. Il valore è di tipo data?

  6. Se il valore non appartiene a uno dei tipi riportati sopra, viene considerato un valore di testo.

Poiché la verifica è incrementale, un valore è di un unico tipo. Per esempio, il valore 5 è di tipo numero intero. Non verrà considerato di tipo testo.

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!