Datakvalitet och datautforskning
När du har öppnat en datauppsättning kan du titta på flera delar av översikten för att lära dig mer om dess övergripande kvalitet, dess schema, kvalitetsstatistik och semantiska typer för varje kolumn.
Kvalitetsindikatorer för datauppsättningen
När du öppnar översikten över en datauppsättning som just har registrerats är det mesta av informationen gråtonad. Om du vill beräkna datakvaliteten för första gången klickar du på knappen Beräkna. Om kvaliteten redan har beräknats en gång tidigare, men du vill se till att uppgifterna är uppdaterade, klickar du på knappen Uppdatera.
Varje beräkning eller uppdatering i pushdown kostar dig Snowflake-krediter. Mer information finns i Data quality for connection-based datasets.
Det finns två huvudavsnitt där kvaliteten visas.
-
Området Datakvalitet, som omfattar:
-
Fördelningen av giltiga, ogiltiga och tomma värden över hela datauppsättningen i form av en kvalitetsstapel med tre färger och deras respektive procentandelar.
-
En poäng för giltighet som anger andelen giltiga värden, utan att ta hänsyn till tomma värden.
-
En poäng för fullständighet som anger procentandelen värden som inte är tomma.
-
En Aktualitetstid, som visar den senaste uppdateringen av datakällan. Mer information finns i Uppgifternas aktualitet.
-
-
Schema-området som visar de olika fälten i datauppsättningen, vilken datatyp eller semantisk typ som har använts och en kvalitetsstapel för varje fält i datauppsättningen.
Utforskning av semantiska typer
Varje fält i en datauppsättning tilldelas automatiskt en semantisk typ för att bättre beskriva dess innehåll. Bakom kulisserna sker en datautvinning för att avgöra vilken typ som ska tilldelas.
Dataavläsningen beräknar hur många värden i en kolumn som matchar varje semantisk typ, och om resultatet är större än 40 procent tilldelar den den semantiska typen till kolumnen.
Hur beräknas procentsatsen?
Denna procentsats är summan av två procentsatser:
-
En procentsats representerar antalet värden som matchar den semantiska typen; upp till 100 procent tilldelas. För att avgöra om ett värde matchar en semantisk typ är dataavläsningen beroende av typen av semantisk typ:
-
Ordlista: Stämmer värdet överens med ett värde från ordlistan? Skiljetecken, versaler, mellanslag och accenter ignoreras.
-
Reguljärt uttryck: Stämmer värdet överens med det reguljära uttrycket?
-
Sammansättning: Är värdet upptäckt i minst ett underordnat objekt?
En sammansättningstyp är en grupp av befintliga semantiska typer, som kallas underordnade.
Om svaret är positivt anses värdet vara giltigt.
-
-
Den andra procentsatsen anger likheten mellan kolumnnamnet och namnet på den semantiska typen; upp till 10 procent tilldelas.
För att jämföra namnen:
-
Levenshtein-algoritmen används. Den beräknar det minsta antal redigeringar (infogning, radering eller substitution) som krävs för att omvandla en sträng till en annan.
-
Skiftläge och accenter ignoreras.
-
Om strängarna innehåller mellanslag ignoreras ordföljden. Till exempel anses US Phone och Phone US vara identiska.
Den maximala procentsatsen är 100. Om alla värden matchar en semantisk typ och kolumnnamnet är identiskt med namnet på den semantiska typen blir resultatet ändå 100 procent.
-
Utforskning av datatyper
I stället för semantiska typer kan även interna datatyper tilldelas. Om ingen semantisk typ får mer än 40 procent tilldelas en datatyp automatiskt av dataavläsningen.
För att avgöra av vilken typ ett värde är, följer dataavläsningen en viss ordning:
-
Är värdet tomt?
-
Är värdet booleskt? true och false är de enda värden som anses vara av typen booleska.
-
Är värdet av typen heltal?
-
Är värdet av typen decimal?
-
Är värdet av typen datum?
-
Om värdet inte är av någon av ovanstående typer betraktas det som ett textvärde.
Eftersom verifieringen sker stegvis kan ett värde bara vara av en typ. Till exempel är värdet 5 av typen heltal. Det kommer inte att betraktas som av typen text.