Gå till huvudinnehåll Gå till ytterligare innehåll

Datakvalitet och datautforskning

När du har öppnat en datauppsättning kan du titta på flera delar av översikten för att lära dig mer om dess övergripande kvalitet, dess schema, kvalitetsstatistik och semantiska typer för varje kolumn.

Anteckning om varningFunktionerna för datakvalitet och semantiska typer är för närvarande endast tillgängliga för Snowflake-datauppsättningar. Datauppsättningar som registrerats från andra källor än Snowflake är fullt användbara för dataprodukter, men visar inte några kvalitetsmått i sin översikt.

Kvalitetsindikatorer för datauppsättningen

När du öppnar översikten över en datauppsättning som just har registrerats är det mesta av informationen gråtonad. Om du vill beräkna datakvaliteten för första gången klickar du på knappen Beräkna. Om kvaliteten redan har beräknats en gång tidigare, men du vill se till att uppgifterna är uppdaterade, klickar du på knappen Uppdatera.

Varje beräkning eller uppdatering kostar dig Snowflake-krediter. Mer information finns här Datakvalitet för Snowflake-datauppsättningar.

Det finns två huvudavsnitt där kvaliteten visas.

  • Området Datakvalitet, som omfattar:

    • Fördelningen av giltiga, ogiltiga och tomma värden över hela datauppsättningen i form av en kvalitetsstapel med tre färger och deras respektive procentandelar.

    • En poäng för giltighet som anger andelen giltiga värden, utan att ta hänsyn till tomma värden.

    • En poäng för fullständighet som anger procentandelen värden som inte är tomma.

  • Schema-området som visar de olika fälten i datauppsättningen, vilken datatyp eller semantisk typ som har använts och en kvalitetsstapel för varje fält i datauppsättningen.

Anteckning om tipsOm det inte går att hämta datauppsättningens schema och kvalitet kontrollerar du om fältet Roll är korrekt ifyllt i den koppling som du har konfigurerat i hubben Qlik Analytics Services, eller om rollen i sig ger nödvändiga behörigheter till databastabellen.

Utforskning av semantiska typer

Varje fält i en datauppsättning tilldelas automatiskt en semantisk typ för att bättre beskriva dess innehåll. Bakom kulisserna sker en datautvinning för att avgöra vilken typ som ska tilldelas.

Dataavläsningen beräknar hur många värden i en kolumn som matchar varje semantisk typ, och om resultatet är större än 40 procent tilldelar den den semantiska typen till kolumnen.

Hur beräknas procentsatsen?

Denna procentsats är summan av två procentsatser:

  • En procentsats representerar antalet värden som matchar den semantiska typen; upp till 100 procent tilldelas. För att avgöra om ett värde matchar en semantisk typ är dataavläsningen beroende av typen av semantisk typ:

    • Ordlista: Stämmer värdet överens med ett värde från ordlistan? Skiljetecken, versaler, mellanslag och accenter ignoreras.

    • Reguljärt uttryck: Stämmer värdet överens med det reguljära uttrycket?

    • Sammansättning: Är värdet upptäckt i minst ett underordnat objekt?

      En sammansättningstyp är en grupp av befintliga semantiska typer, som kallas underordnade.

    Om svaret är positivt anses värdet vara giltigt.

  • Den andra procentsatsen anger likheten mellan kolumnnamnet och namnet på den semantiska typen; upp till 10 procent tilldelas.

    För att jämföra namnen:

    • Levenshtein-algoritmen används. Den beräknar det minsta antal redigeringar (infogning, radering eller substitution) som krävs för att omvandla en sträng till en annan.

    • Skiftläge och accenter ignoreras.

    • Om strängarna innehåller mellanslag ignoreras ordföljden. Till exempel anses US Phone och Phone US vara identiska.

    Den maximala procentsatsen är 100. Om alla värden matchar en semantisk typ och kolumnnamnet är identiskt med namnet på den semantiska typen blir resultatet ändå 100 procent.

Utforskning av datatyper

I stället för semantiska typer kan även interna datatyper tilldelas. Om ingen semantisk typ får mer än 40 procent tilldelas en datatyp automatiskt av dataavläsningen.

För att avgöra av vilken typ ett värde är, följer dataavläsningen en viss ordning:

  1. Är värdet tomt?

  2. Är typens värde booleskt? True och false är de enda värden som anses vara av typen boolesk.

  3. Är värdet av typen heltal?

  4. Är värdet av typen decimal?

  5. Är värdet av typen datum?

  6. Om värdet inte är av någon av ovanstående typer betraktas det som ett textvärde.

Eftersom verifieringen sker stegvis kan ett värde bara vara av en typ. Till exempel är värdet 5 av typen heltal. Det kommer inte att betraktas som av typen text.

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!