Gegevenskwaliteit en gegevensdetectie
Na het openen van een gegevensverzameling kunt u verschillende delen van het overzicht bekijken voor meer informatie over de algemene kwaliteit, het schema, de kwaliteitsstatistieken en semantische typen van elke kolom.
Kwaliteitsindicatoren van de gegevensverzameling
Als u het overzicht opent van een gegevensverzameling die zojuist is geregistreerd, wordt het merendeel van de informatie grijs weergegeven. Klik op de knop Meten om voor de eerste keer de gegevenskwaliteit te meten. Als de kwaliteit al eens gemeten is, maar u wilt er zeker van zijn dat de gegevens actueel zijn, klikt u op de knop Vernieuwen.
Elke meting of vernieuwing in pushdown kost u Snowflake-credits. Ga voor meer informatie naar Data quality for connection-based datasets.
De kwaliteit wordt getoond in twee hoofdsecties.
-
Het gebied Gegevenskwaliteit bevat het volgende:
-
De verdeling van geldige, ongeldige en lege waarden binnen de gehele gegevensverzameling in de vorm van een kwaliteitsbalk met drie kleuren, met de bijbehorende percentages.
-
Een geldigheidswaarde, die het percentage van geldige waarden weergeeft, zonder lege waarden in aanmerking te nemen.
-
Een volledigheidsscore, die het percentage toont van waarden die niet leeg zijn.
-
De tijd van vernieuwing geeft de laatste bijwerking van de gegevensbron aan. Ga voor meer informatie naar Nieuwheid van gegevens.
-
-
Het gebied Schema toont de verschillende velden van de gegevensverzameling, welk gegevenstype of semantisch type is toegepast, en een kwaliteitsbalk voor elk veld van de gegevensverzameling.
Semantische typen detecteren
Aan elk veld van een gegevensverzameling wordt automatisch een semantisch type toegewezen om de inhoud beter te beschrijven. Op de achtergrond wordt een bewerking voor gegevensdetectie uitgevoerd om te bepalen welke type moet worden toegewezen.
De gegevensdetectie berekent hoeveel waarden in een kolom overeenkomen met elk semantisch type en, als het resultaat hoger is dan 40%, wordt het semantisch type toegewezen aan de kolom.
Hoe wordt het percentage berekend?
Dit percentage is de som van twee percentages:
-
Het ene percentage vertegenwoordigt het aantal waarden dat overeenkomt met het semantisch type; tot 100% toegewezen. Om te bepalen of een waarde overeenkomt met een semantisch type, hangt af van de gegevensdetectie van de soort semantisch type:
-
Woordenboek: komt de waarde overeen met een waarde uit het woordenboek? Interpunctie, onder- of bovenkast, spaties en accenttekens worden genegeerd.
-
Algemene uitdrukking: komt de waarde overeen met de algemene uitdrukking?
-
Samenstelling: maakt de ontdekte waarde onderdeel uit van ten minste één onderliggend item?
Een samenstellingstype is een groep van bestaande semantische typen, onderliggende items genoemd.
Als het antwoord positief is, wordt de waarde als geldig beschouwd.
-
-
Het andere percentage vertegenwoordigt de gelijkenis tussen de kolomnaam en de naam van het semantisch type; tot 10% toegewezen.
Het vergelijken van de namen:
-
Het Levenshtein-algoritme wordt gebruikt. Deze berekent het minimumaantal bewerkingen (invoeging, verwijdering of vervanging) dat is vereist om een tekenreeks te transformeren in een andere tekenreeks.
-
De onder-/bovenkast en accenttekens worden genegeerd.
-
Als de tekenreeksen spaties bevatten, wordt de woordvolgorde genegeerd. Zo worden US Phone en Phone US als identiek beschouwd.
Het maximumpercentage is 100%. Als alle waarden overeenkomen met een semantisch type en de kolomnaam identiek is aan de naam van het semantisch type, blijft het resultaat 100%.
-
Detectie van gegevenstypen
In plaats van semantische typen, kunnen ook eigen gegevenstypen worden toegewezen. Als er geen enkel semantisch type meer dan 40% behaalt, wijst de gegevensdetactie automatisch een gegevenstype toe.
Om te bepalen welk type een waarde is, volgt de gegevensdetectie een bepaalde volgorde:
-
Is de waarde leeg?
-
Is de waarde van het type booleaans? true en false zijn de enige waarden die als het type booleaans worden beschouwd.
-
Is de waarde van het type geheel getal?
-
Is de waarde van het type decimaal?
-
Is de waarde van het type datum?
-
Als de waarde niet tot een van de bovenstaande typen behoort, wordt het als een tekstwaarde beschouwd.
De verificatie is incrementeel en dus kan een waarde slechts tot één type behoren. Zo is de waarde 5 van het type geheel getal. Dit wordt niet als het type tekst beschouwd.