Jakość danych i odkrywanie danych
Po otwarciu zestawu danych można przejrzeć kilka części przeglądu, aby dowiedzieć się więcej o ogólnej jakości, schemacie, statystykach jakości i typach semantycznych każdej kolumny.
Wskaźniki jakości zestawu danych
Po otwarciu przeglądu właśnie zarejestrowanego zestawu danych większość informacji jest wyszarzona. Aby po raz pierwszy obliczyć jakość danych, kliknij przycisk Oblicz. Jeżeli jakość była już raz obliczana, ale chcesz mieć pewność, że dane są aktualne, kliknij przycisk Odśwież.
Każde obliczenie lub odświeżenie w przekazywaniu powoduje wydawanie punktów kredytowych Snowflake. Więcej informacji zawiera temat Data quality for connection-based datasets.
Istnieją dwie główne sekcje, w których jest wyświetlana jakość.
-
Obszar Jakość danych, który obejmuje:
-
Podział wartości prawidłowych, nieprawidłowych i pustych w całym zestawie danych w formie paska jakości z trzema kolorami i odpowiadającymi im wartościami procentowymi.
-
Wynik Ważności wyrażający procent prawidłowych wartości, bez uwzględnienia wartości pustych.
-
Wynik Kompletności wyrażający procent wartości, które nie są puste.
-
Czas Świeżości przedstawiający ostatnią aktualizację źródła danych. Więcej informacji zawiera temat Świeżość danych.
-
-
Obszar Schemat przedstawiający różne pola zestawu danych, zastosowany typ danych lub typ semantyczny oraz pasek jakości dla każdego pola zestawu danych.
Odkrywanie typów semantycznych
Każde pole zestawu danych ma automatycznie przypisany typ semantyczny, aby lepiej opisać jego zawartość. Za kulisami jest przeprowadzana operacja wykrywania danych w celu określenia typu do przypisania.
Wykrywanie danych oblicza, ile wartości w kolumnie pasuje do poszczególnych typów semantycznych, a jeśli wynik jest większy niż 40%, przypisuje dany typ semantyczny do kolumny.
Jak oblicza się wartość procentową?
Procent ten jest sumą dwóch wartości procentowych:
-
Jedna wartość procentowa reprezentuje liczbę wartości pasujących do typu semantycznego; przydzielana do 100%. Aby określić, czy wartość pasuje do typu semantycznego, wykrywanie danych polega na rodzaju typu semantycznego:
-
Słownik: czy wartość odpowiada wartości ze słownika? Znaki interpunkcyjne, wielkość liter, spacje i znaki diakrytyczne są ignorowane.
-
Wyrażenie regularne: czy wartość pasuje do wyrażenia regularnego?
-
Typ złożony: czy wartość została odkryta w co najmniej jednym elemencie podrzędnym?
Typ złożony to grupa istniejących typów semantycznych, zwanych elementami podrzędnymi.
Jeśli odpowiedź jest pozytywna, wartość uważa się za ważną.
-
-
Druga wartość procentowa reprezentuje podobieństwo pomiędzy nazwą kolumny a nazwą typu semantycznego; przydzielana do 10%.
Aby porównać nazwy:
-
Stosowany jest algorytm Levenshteina. Oblicza minimalną liczbę zmian (wstawienie, usunięcie lub zastąpienie) wymaganą do przekształcenia jednego ciągu w inny.
-
Wielkość liter i znaki diakrytyczne są ignorowane.
-
Jeśli ciągi zawierają spacje, kolejność słów jest ignorowana. Na przykład PL Telefon i Telefon PL są uważane za identyczne.
Maksymalna wartość procentowa wynosi 100%. Jeśli wszystkie wartości odpowiadają typowi semantycznemu, a nazwa kolumny jest identyczna z nazwą typu semantycznego, wynik nadal wynosi 100%.
-
Odkrywanie typów danych
Zamiast typów semantycznych można przypisywać także natywne typy danych. Jeśli żaden typ semantyczny nie uzyska więcej niż 40%, wykrywanie danych automatycznie przypisuje typ danych.
Aby określić, którego typu jest wartość, wykrywanie danych odbywa się w następującej kolejności:
-
Czy wartość jest pusta?
-
Czy wartość jest typu logicznego? true i false to jedyne wartości uznawane za typ logiczny.
-
Czy wartość jest typu liczba całkowita?
-
Czy wartość jest typu dziesiętna?
-
Czy wartość jest typu data?
-
Jeśli wartość nie należy do żadnego z powyższych typów, uważa się ją za wartość tekstową.
Ponieważ weryfikacja jest przyrostowa, wartość jest tylko jednego typu. Na przykład wartość 5 jest typu liczba całkowita. Nie będzie rozpatrywana jako typ tekstowy.