Zarządzanie metadanymi na poziomie pól i profilowanie danych
Metadane na poziomie pól umożliwiają użytkownikom stosowanie aliasów, opisów i klasyfikacji do pól. Funkcje te pomagają w identyfikacji określonych danych i wrażliwych pól.
Dzięki profilowaniu administratorzy danych uzyskują dostęp do obszernych informacji technicznych o swoich zestawach danych. Twórcy aplikacji używają statystyk profilu i próbkowania danych do uzyskiwania pomysłów i wskazówek dotyczących tworzenia aplikacji oraz planowania wizualizacji. Profilowanie pól może pomóc analitykom danych i użytkownikom biznesowym w szybszym uzyskiwaniu wniosków. Mogą oni przeglądać i wizualizować cenne wskaźniki profili pól bez konieczności wcześniejszego tworzenia aplikacji.
Uprawnienia
Do profilowania i próbkowania danych wymagane są uprawnienia. Musisz mieć rolę w przestrzeni zestawu danych, która umożliwia profilowanie źródeł danych. Więcej informacji zawiera temat Zarządzanie uprawnieniami w przestrzeniach udostępnionych lub Zarządzanie uprawnieniami w przestrzeniach zarządzanych.
Zarządzanie metadanymi na poziomie pól
Możesz uzyskiwać dostęp do metadanych i edytować je dla każdego pola w zestawie danych na karcie Profil. Wybierz dowolną kartę z widoku Kafelków, dowolny wiersz z widoku
Listy lub dowolną kolumnę z widoku
Dane, aby otworzyć panel Szczegóły tego pola po prawej stronie siatki. Pola metadanych na poziomie pól — Alias pola, Opis, Znaczniki i Klasyfikacja — są opcjonalne i można je definiować oraz edytować w tym panelu.
Szczegóły | Opis |
---|---|
Alias pola | Wprowadź opcjonalną nazwę alternatywną, aby nazwy pól były bardziej znaczące w analizie profilu. Aliasy nazw pól są wyświetlane tylko w analizie profilu i nie mają wpływu na techniczne nazwy kolumn. |
Opis |
Wprowadź wszelkie informacje, które mogą być przydatne dla użytkowników przeglądających metadane pola i profilujących w odniesieniu do pola. |
Znaczniki | Wprowadź wstawki tekstu w celu zdefiniowania i sklasyfikowania pola oraz jego danych. |
Klasyfikacja | Zaznacz pole wyboru Dane osobowe lub Informacje poufne. |
Metadane na poziomie pól dla pliku XLSX z wieloma arkuszami

Nie wszystkie typy danych są domyślnie profilowane. W przypadku następujących typów danych jest wyświetlany ograniczony profil, dopóki ich nie sprofilujesz:
-
QVD
-
Parquet
Więcej informacji na temat ograniczonego profilu zawiera temat Ograniczony widok profilu.
Profilowanie danych
Statystyki profilu oferują analizy kolumn mierzące częstość występowania, zakresy i wartości występujące w zestawach danych. Te wskaźniki opisują relacje między wartościami pól, takie jak:
- Liczba wartości odrębnych (kardynalność)
- Przykładowe wartości, najczęściej występujące wartości i częstotliwość wartości
- Nadmiarowości przydatne w identyfikowaniu wartości domyślnych lub potencjalnie zduplikowanych
- Liczba wartości null, ciągów i liczbowych
- Informacje o zakresach wartości, w tym minimum, maksimum, średnia, suma i odchylenie standardowe
Katalog oferuje trzy różne widoki danych profili pól:
-
Widok kafelków to wykorzystująca karty, wizualna reprezentacja pól ułożonych w formie siatki.
-
Widok listy jest tabelarycznym podsumowaniem konfigurowanych statystyk profilu.
-
Widok tabeli wyświetla nazwy kolumn pól i maksymalnie dwadzieścia pierwszych rekordów zestawu danych.
Wybierz ikonę Tile, List
lub Dane
, aby przełączać widoki profilu.
Widok kafelków
Widok Kafelek profilu to wizualny profil pola przeznaczony do wyświetlania najistotniejszych pod względem informacyjnym treści dla tego typu pola. Domyślnie wyświetlany typ karty widoku zależy od tego, czy liczba wartości liczbowych lub tekstowych jest większa dla tego pola. Na przykład, dla pól z wartościami tekstowymi i liczbowymi, typ karty Najczęściej występujące wartości wyświetla się domyślnie, jeśli jest więcej wartości tekstowych, a typ karty dystrybucja liczbowa Grupowana częstotliwość wyświetla się, jeśli w polu jest więcej wartości liczbowych. Jest dostępny rozwijany przełącznik umożliwiający przełączenie na typ karty Najczęściej występujące wartości dla każdego pola, które ma powtarzalne wartości, gdy wybrano . Można też powrócić do karty dystrybucji liczbowej, jeśli wybrano Grupowaną częstotliwość
. Zauważ, że wszystkie typy kart zawierają liczbę wartości null, jeśli pole ma wartości null.
Widok kafelków: pola są profilowane według wskaźników, które są istotne dla typu danych zawartych w tym polu (przykład: tekst a wartości liczbowe)

Karta Przykładowe wartości
Karta Przykładowe wartości jest pokazywana, gdy wszystkie wartości są unikalne i tylko tekstowe. Spowoduje to wyświetlenie (maksymalnie) pierwszych trzech wartości i łącznej liczby dodatkowych wartości unikatowych.

Kryteria profilu Wartości przykładowe: wartości pól są profilowane za pomocą tej karty, gdy liczebność jest wysoka (wszystkie wartości odrębne). W przypadku, gdy każda wartość jest unikatowa i tekstowa, kilka przykładowych wartości zapewnia najlepszy wstępny wgląd w ten typ danych pola.
Każda karta profilu Przykładowe wartości zawiera następujące elementy:
- Nazwa pola
- Liczba kardynalna (wartości odrębne)
- Maksymalnie trzy przykładowe wartości (pola mogą mieć mniej niż trzy wartości)
Karta Częstotliwość najczęściej występujących wartości
Karta Częstotliwość najczęściej występujących wartości pokazuje pięć najczęstszych wartości i ich częstotliwość. Jeśli jest więcej niż pięć różnych wartości, są one łączone i wyświetlane jako Inne. Jeśli w którymś z pól brakuje wartości, suma jest wyświetlana jako Null. Tę kartę profilu można zastosować do tekstowych, liczbowych lub mieszanych wartości danych.

Kryteria Częstotliwość najczęściej występujących wartości: pola, które mają niewiele wartości lub nierównomierny rozkład wartości, są profilowane przy użyciu karty częstotliwości najczęściej występujących wartości. To profilowanie jest stosowane tylko wtedy, gdy istnieje wiele wystąpień tych samych wartości. Użytkownicy mogą uzyskać szybki wgląd w rozkład wartości pól. Jeśli dane pola zawierają zarówno wartości tekstowe, jak i liczbowe, a wartości tekstowych jest więcej niż liczbowych, wówczas wyświetlana jest karta Częstotliwość najczęściej występujących wartości. Przełącznik Grupowana częstotliwość jest dostępny, gdy w polu są więcej niż trzy wartości liczbowe.
Każda karta profilu Częstotliwość najczęściej występujących wartości zawiera następujące elementy:
- Nazwa pola
- Liczba kardynalna (wartości odrębne)
- Najczęściej występujące wartości i ich częstotliwość
- Inne – łączna częstotliwość pozostałych wartości
Karta Grupowana częstotliwość
Karta Grupowana częstotliwość zawiera informacje dotyczące dystrybucji i profilowania, które są istotne dla pól liczbowych, w tym minimalne, średnie i maksymalne wartości danych. Jeśli dane pola zawierają zarówno wartości tekstowe, jak i liczbowe, a wartości liczbowych jest więcej niż tekstowych, wówczas wyświetlana jest karta Grupowana częstotliwość. Typ karty Częstotliwość najczęściej występujących wartości jest dostępna dla wszystkich pól, które mają powtarzalne wartości.
Karta widoku kafelków: rozkład liczbowy Grupowanej częstotliwości

Każda karta profilu Grupowana częstotliwość zawiera następujące elementy:
- Nazwa pola
- Liczba kardynalna (wartości odrębne)
- Histogram przedstawiający rozkład danych liczbowych
- Wartość minimalna
- Średnia wartość (suma liczb podzielona przez łączną liczbę wartości w zestawie danych)
- Wartość maksymalna
Widok listy
Widok Lista profili zawiera tabelę z opcjami statystyk profilu. Użytkownicy sprawdzają interesujące ich wskaźniki mające największe znaczenie dla zestawu danych, który można znaleźć pod selektorem kolumn , przewijając do skrajnej prawej krawędzi tabeli. Pierwszych dziewięć statystyk jest domyślnie wstępnie wybranych.
Widok listy: wybierz interesujące Cię statystyki profilu z rozwijanego menu Wybór kolumn, które można znaleźć, przewijając tabelę w prawo

Widok danych
Widok danych profilu wyświetla zestaw danych jako prostą tabelę danych z nazwami kolumn pól i (maksymalnie) pierwszymi dwudziestoma wartościami.
Widok danych: wyświetlane są nazwy kolumn zestawu danych i pierwsze dwadzieścia rekordów

Ograniczony widok profilu
Niektóre zestawy danych nie są domyślnie profilowane. Zamiast tego Profil wyświetla ograniczony profil danych. Dane można sprofilować, klikając przycisk Profiluj zestaw danych.
Następujące typy danych wyświetlają ograniczony widok profilu, dopóki nie zostaną sprofilowane:
-
QVD
-
Parquet
Ograniczony profil zestawu danych QVD
