Przeskocz do zawartości głównej

Profilowanie danych

Statystyki profilu oferują analizy kolumn mierzące częstość występowania, zakresy i wartości występujące w zestawach danych. Te wskaźniki opisują relacje między wartościami pól, takie jak:

  • Liczba wartości odrębnych (liczba kardynalna)
  • Przykładowe wartości, najczęściej występujące wartości i częstotliwość wartości
  • Nadmiarowości przydatne w identyfikowaniu wartości domyślnych lub potencjalnie zduplikowanych
  • Liczba wartości null, ciągów i liczbowych
  • Informacje o zakresach wartości, w tym minimum, maksimum, średnia, suma i odchylenie standardowe

Dzięki profilowaniu administratorzy danych uzyskują dostęp do obszernych informacji technicznych o swoich zestawach danych. Informacje te pomagają w organizacji i przydzielaniu zasobów oraz dostępu. Twórcy aplikacji używają statystyk profilu i próbkowania danych do uzyskiwania pomysłów i wskazówek dotyczących tworzenia aplikacji oraz planowania wizualizacji. Profilowanie pól może pomóc analitykom danych i użytkownikom biznesowym w szybszym uzyskiwaniu wniosków. Mogą oni przeglądać i wizualizować cenne wskaźniki profili pól bez konieczności wcześniejszego tworzenia aplikacji.

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

Widok kafelków: Pola są profilowane według wskaźników, które są istotne dla typu danych zawartych w tym polu (przykład: tekst a wartości liczbowe)

Widok Kafelek profilu

Widok listy: Wybierz interesujące Cię statystyki profilowania z listy rozwijanej Kolumny

Widok listy profilów

Widok Kafelek profilu

Widok Kafelek profilu to wizualny profil pola przeznaczony do wyświetlania najistotniejszych pod względem informacyjnym treści dla tego typu pola. Domyślnie wyświetlany typ karty widoku zależy od tego, czy liczba wartości liczbowych lub tekstowych jest większa dla tego pola. Na przykład, dla pól z wartościami tekstowymi i liczbowymi, typ karty Najczęściej występujące wartości wyświetla się domyślnie, jeśli jest więcej wartości tekstowych, a typ karty dystrybucja liczbowa Grupowana częstotliwość wyświetla się, jeśli w polu jest więcej wartości liczbowych. Jest dostępny rozwijany przełącznik umożliwiający przełączenie na typ karty Częstotliwość najczęściej występujących wartości dla każdego pola, które ma powtarzalne wartości, gdy wybrano A; można też powrócić do karty dystrybucji liczbowej, jeśli wybrano #1. Zauważ, że wszystkie typy kart zawierają liczbę wartości null, jeśli pole ma wartości null.

Karty widoku kafelków: Dystrybucja liczbowa Grupowana częstotliwość, Przykładowe wartości i Częstotliwość najczęściej występujących wartości

Karty profilów widoku kafelków

Karta Przykładowe wartości

Karta Przykładowe wartości jest pokazywana, gdy wszystkie wartości są unikalne i tylko tekstowe. Spowoduje to zestawienie maksymalnie trzech pierwszych wartości.

Karta profilu Przykładowe wartości
Przykładowe wartości karty profilu

Kryteria profilu Przykładowe wartości: Wartości pól są profilowane za pomocą tej karty, gdy liczebność jest wysoka (wszystkie wartości odrębne). W przypadku, gdy każda wartość jest unikatowa i tekstowa, kilka przykładowych wartości zapewnia najlepszy wstępny wgląd w ten typ danych pola.

Każda karta profilu Przykładowe wartości zawiera następujące elementy: 

  • Nazwa pola
  • Liczebność
  • Maksymalnie trzy przykładowe wartości (pola mogą mieć mniej niż trzy wartości)

Karta Most common values frequency (Częstotliwość najczęściej występujących wartości)

Karta Most common values frequency (Częstotliwość najczęściej występujących wartości) pokazuje dwie najczęściej używane wartości oraz częstotliwość występowania tych wartości i wszystkich innych wartości połączonych jako Inne. Jeżeli istnieją tylko trzy wartości, to wyświetlane są wszystkie trzy wartości z częstotliwością występowania każdej z nich. Tę kartę profilu można zastosować do tekstowych, liczbowych lub mieszanych wartości danych.

Karta profilu Most common values frequency (Częstotliwość najczęściej występujących wartości) z wartościami tekstowymi
Karta profilu Most common values frequency (Częstotliwość najczęściej występujących wartości)
Karta profilu Most common values frequency (Częstotliwość najczęściej występujących wartości) z wartościami liczbowymi
Karta profilu Most common values (Najczęściej występujące wartości)

Kryteria częstotliwości najczęściej występujących wartości: Pola, które mają niewiele wartości lub nierównomierny rozkład wartości, są profilowane w odniesieniu do karty częstotliwości najczęściej występujących wartości. To profilowanie jest stosowane tylko wtedy, gdy istnieje wiele wystąpień tych samych wartości. Użytkownicy mogą uzyskać szybki wgląd w rozkład wartości pól. Jeśli dane pola zawierają zarówno wartości tekstowe, jak i liczbowe, a wartości tekstowych jest więcej niż liczbowych, wówczas wyświetlana jest karta Most common values frequency (Częstotliwość najczęściej występujących wartości). Przełącznik Binned frequency (Grupowana częstotliwość) jest dostępny, gdy w polu są więcej niż trzy wartości liczbowe.

Każda karta profilu Most common values frequency (Częstotliwość najczęściej występujących wartości) zawiera następujące elementy: 

  • Nazwa pola
  • Liczebność
  • Najczęściej występujące wartości i ich częstotliwość
  • Inne – łączna częstotliwość pozostałych wartości

Karta Binned frequency (Grupowana częstotliwość)

Karta Binned frequency (Grupowana częstotliwość) zawiera informacje dotyczące dystrybucji i profilowania, które są istotne dla pól liczbowych, w tym minimalne, średnie i maksymalne wartości danych. Jeśli dane pola zawierają zarówno wartości tekstowe, jak i liczbowe, a wartości liczbowych jest więcej niż tekstowych, wówczas wyświetlana jest karta Binned frequency (Grupowana częstotliwość). Typ karty Częstotliwość najczęściej występujących wartości jest dostępna dla wszystkich pól, które mają powtarzalne wartości.

Karta profilu Binned frequency (Grupowana częstotliwość)

Karta profilu Binned frequency (Grupowana częstotliwość)

Każda karta profilu Binned frequency (Grupowana częstotliwość) zawiera następujące elementy: 

  • Nazwa pola
  • Liczebność
  • Histogram przedstawiający rozkład danych liczbowych
  • Wartość minimalna
  • Średnia wartość (suma liczb podzielona przez łączną liczbę wartości w zestawie danych)
  • Wartość maksymalna

Widok Profile List (Lista profili)

Widok Profile List (Lista profili) zawiera tabelę z opcjami statystyk profilu. Użytkownicy sprawdzają interesujące ich wskaźniki, które są najistotniejsze dla zestawu danych podlegającego profilowaniu w Columns. Pierwszych dziewięć statystyk jest domyślnie wstępnie wybranych.

Z karty Strona główna huba przejdź do Twoich danych lub w sekcji Katalog odfiltruj TypyDane.

  1. Wybierz pozycję Otwórz zestaw danych, a następnie Dane profilu. Spowoduje to otwarcie strony Profil zestawu danych. Wybierz przycisk Kolumny i umieść znacznik wyboru obok interesujących Cię statystyk profilu. Te statystyki muszą być zaznaczone (oznaczone znacznikiem wyboru), aby umożliwiały profilowanie pola (kolumny) i występowały w tabeli. Na poniższej liście wyszczególniono dostępne statystyki profilu.

    Statystyki profilu
    Statystyki Opis
    Nazwa Nazwa pola (np. CategoryID)
    Typ danych

    Qlik Sense rejestruje dane z wielu różnych systemów, a dane pola (kolumny) są poddawane mapowaniu zewnętrznych typów danych na jednolite wewnętrzne do celów informacyjnych. Obsługiwane wartości typu danych obejmują:

    • Date: Data zawierająca miesiąc, dzień i rok w formacie ISO 8601: YYYY-MM-DD

    • Time: Wartość czasu zawierająca godzinę, minuty i sekundy w formacie ISO 8601: hh.mm.ss.sss±hh:mm
    • Datetime: Wartość daty i godziny zawierająca rok, miesiąc, dzień, godzinę, minuty, sekundy i ułamki sekund w formacie YYYY-MM-DDThh.mm.ss.sss
    • Timestamp: Wartość typu znacznik czasu zawierająca rok, miesiąc, dzień, godzinę, minuty, sekundy, ułamki sekund i strefę czasową w formacie YYYY-MM-DDThh.mm.ss.sssZ
    • String: Dane znakowe reprezentujące tekst
    • Double: Liczbowy typ danych — 64-bitowa liczba zmiennoprzecinkowa o podwójnej precyzji w standardzie IEEE 754
    • Decimal: Dokładny liczbowy typ danych określany przez jego dokładność (łączną liczbę cyfr) i skalę (liczbę cyfr po prawej stronie przecinka dziesiętnego)
    • Integer: Dodatnie lub ujemne liczby całkowite
    • Boolean: Wartość logiczna (PRAWDA/FAŁSZ)
    • Binary: Dane kategoryczne, które mogą przyjmować dokładnie dwie możliwe wartości, takie jak „1” i „2”
    • Custom: Typ danych spoza mapowanych typów znanych w systemie
    Wartości odrębne Liczba kardynalna — liczba różnych wartości występujących w przypadku tego pola
    Przykładowe wartości Przykładowe wartości (wyświetlanie 3 przykładowych wartości)
    Sum Suma wszystkich wartości w tym polu (w przypadku pól ciągów znakowych wyświetlane jest „0”)
    Min. Minimalna obserwowana wartość tego pola (pola liczbowe)
    Maks. Maksymalna obserwowana wartość tego pola (pola liczbowe)
    Średnia Średnia obserwowana wartość tego pola
    Znaczniki systemowe Znaczniki plików zastosowane w celu identyfikacji zestawu kodowania (np. $ascii, $text)
    Odchylenie standardowe Odchylenie standardowe w przypadku pól liczbowych
    Dodatnie Liczba wartości dodatnich
    Ujemne Liczba wartości ujemnych
    Wartości zerowe Liczba wartości „0”
    Puste ciągi Liczba pustych ciągów
    Minimalna długość Najmniejsza obserwowana liczba znaków
    Średnia długość Średnia obserwowana liczba znaków
    Maksymalna długość Największa obserwowana liczba znaków
    Pierwsza wartość sortowana Pierwsza (najniższa) wartość wagi sortowania (pola ciągów tekstowych)
    Ostatnia wartość sortowana Ostatnia (najwyższa) wartość wagi sortowania (pola ciągów tekstowych)
    Wartości liczbowe Liczba wartości liczbowych
    Wartości tekstowe Liczba wartości tekstowych
    Najczęstsze wartości Trzy najczęściej spotykane wartości w polu

Dane próbki

Próbka danych jest podzestawem zestawu danych populacji. Jest to przydatne narzędzie dla administratorów danych, zapewniające zgodność danych z oczekiwanymi wzorcami i formatem. Twórcy aplikacji mogą zorientować się w polach i danych pól w kontekście innych rekordów i zestawu danych. Te widoki umożliwiają pierwsze spojrzenie na dane, a twórcy aplikacji mogą zacząć eksplorowanie danych na potrzeby analizy i potencjalnych korelacji.

Wybierz pozycję Próbka danych, aby wyświetlić próbkę pierwszych 20 wartości danych każdego pola

Próbka aparatu zestawu danych
  • Wybierz przycisk ikona strzałki w dół, a następnie Próbka, aby wyświetlić próbkę (n = 20) wartości danych każdego pola.

Uprawnienia

Do profilowania i próbkowania danych wymagane są uprawnienia. Działanie profilowania danych wiąże się z szerszym uprawnieniem Źródło danych profilu. Więcej informacji zawiera temat Zarządzanie uprawnieniami w przestrzeniach udostępnionych lub Zarządzanie uprawnieniami w przestrzeniach zarządzanych.

  • Dane profilu > Źródło danych profilu

Przykład