Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Jakość danych i odkrywanie danych

Po otwarciu zestawu danych można przejrzeć kilka części przeglądu, aby dowiedzieć się więcej o ogólnej jakości, schemacie, statystykach jakości i typach semantycznych każdej kolumny.

OstrzeżenieFunkcje jakości danych i typów semantycznych są obecnie dostępne tylko dla zestawów danych Snowflake. Zestawy danych zarejestrowane z innych źródeł niż Snowflake doskonale nadają się do wykorzystania w produktach danych, ale w przeglądzie nie będą wykazywać żadnych wskaźników jakości.

Wskaźniki jakości zestawu danych

Po otwarciu przeglądu właśnie zarejestrowanego zestawu danych większość informacji jest wyszarzona. Aby po raz pierwszy obliczyć jakość danych, kliknij przycisk Oblicz. Jeżeli jakość była już raz obliczana, ale chcesz mieć pewność, że dane są aktualne, kliknij przycisk Odśwież.

Każde obliczenie lub odświeżenie powoduje wydawanie punktów kredytowych Snowflake. Więcej informacji zawiera temat Jakość danych dla zestawów danych Snowflake.

Istnieją dwie główne sekcje, w których jest wyświetlana jakość.

  • Obszar Jakość danych, który obejmuje:

    • Podział wartości prawidłowych, nieprawidłowych i pustych w całym zestawie danych w formie paska jakości z trzema kolorami i odpowiadającymi im wartościami procentowymi.

    • Wynik Ważności wyrażający procent prawidłowych wartości, bez uwzględnienia wartości pustych.

    • Wynik Kompletności wyrażający procent wartości, które nie są puste.

  • Obszar Schemat przedstawiający różne pola zestawu danych, zastosowany typ danych lub typ semantyczny oraz pasek jakości dla każdego pola zestawu danych.

WskazówkaJeśli nie uda się pobrać schematu i jakości zestawu danych, sprawdź, czy połączenie skonfigurowane w hubie Usług analiz Qlik ma prawidłowo wypełnione pole Rola lub czy sama rola przyznaje niezbędne uprawnienia do tabeli bazy danych.

Odkrywanie typów semantycznych

Każde pole zestawu danych ma automatycznie przypisany typ semantyczny, aby lepiej opisać jego zawartość. Za kulisami jest przeprowadzana operacja wykrywania danych w celu określenia typu do przypisania.

Wykrywanie danych oblicza, ile wartości w kolumnie pasuje do poszczególnych typów semantycznych, a jeśli wynik jest większy niż 40%, przypisuje dany typ semantyczny do kolumny.

Jak oblicza się wartość procentową?

Procent ten jest sumą dwóch wartości procentowych:

  • Jedna wartość procentowa reprezentuje liczbę wartości pasujących do typu semantycznego; przydzielana do 100%. Aby określić, czy wartość pasuje do typu semantycznego, wykrywanie danych polega na rodzaju typu semantycznego:

    • Słownik: czy wartość odpowiada wartości ze słownika? Znaki interpunkcyjne, wielkość liter, spacje i znaki diakrytyczne są ignorowane.

    • Wyrażenie regularne: czy wartość pasuje do wyrażenia regularnego?

    • Typ złożony: czy wartość została odkryta w co najmniej jednym elemencie podrzędnym?

      Typ złożony to grupa istniejących typów semantycznych, zwanych elementami podrzędnymi.

    Jeśli odpowiedź jest pozytywna, wartość uważa się za ważną.

  • Druga wartość procentowa reprezentuje podobieństwo pomiędzy nazwą kolumny a nazwą typu semantycznego; przydzielana do 10%.

    Aby porównać nazwy:

    • Stosowany jest algorytm Levenshteina. Oblicza minimalną liczbę zmian (wstawienie, usunięcie lub zastąpienie) wymaganą do przekształcenia jednego ciągu w inny.

    • Wielkość liter i znaki diakrytyczne są ignorowane.

    • Jeśli ciągi zawierają spacje, kolejność słów jest ignorowana. Na przykład PL Telefon i Telefon PL są uważane za identyczne.

    Maksymalna wartość procentowa wynosi 100%. Jeśli wszystkie wartości odpowiadają typowi semantycznemu, a nazwa kolumny jest identyczna z nazwą typu semantycznego, wynik nadal wynosi 100%.

Odkrywanie typów danych

Zamiast typów semantycznych można przypisywać także natywne typy danych. Jeśli żaden typ semantyczny nie uzyska więcej niż 40%, wykrywanie danych automatycznie przypisuje typ danych.

Aby określić, którego typu jest wartość, wykrywanie danych odbywa się w następującej kolejności:

  1. Czy wartość jest pusta?

  2. Czy wartość jest typu logicznego? Prawda i fałsz to jedyne wartości uznawane za typ logiczny.

  3. Czy wartość jest typu liczba całkowita?

  4. Czy wartość jest typu dziesiętna?

  5. Czy wartość jest typu data?

  6. Jeśli wartość nie należy do żadnego z powyższych typów, uważa się ją za wartość tekstową.

Ponieważ weryfikacja jest przyrostowa, wartość jest tylko jednego typu. Na przykład wartość 5 jest typu liczba całkowita. Nie będzie rozpatrywana jako typ tekstowy.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!