Struktura widoku data mart
W tym temacie opisano wewnętrzne kolumny nagłówka (identyfikowane przez ich przedrostek hdr__) widoków data mart. Kulminacją potoków danych są często data marty, które denormalizują dane do postaci schematów gwiazdy. Fakty przedstawiają wygodną strukturę do wykorzystania przez analityków stosujących modelowanie wymiarowe. W związku z tym zrozumienie roli kolumn nagłówka umożliwi generowanie bardziej ukierunkowanych raportów na potrzeby analiz i wykorzystania przez aplikacje podrzędne.
Widok faktów
Format nazwy widoku: <SCHEMAT_ZASOBU_DANYCH>.[<PREFIKS> ]<FAKT>
Do struktury widoku dodawane są następujące kolumny nagłówka:
Kolumna |
Typ |
Opis |
---|---|---|
hdr__deleted | Wartość logiczna |
Wskazuje, czy rekord został usunięty z tabeli faktów. |
hdr_{dimension-name}_key_id | int64 |
Odwołanie do wymiarów typu 1 i typu 2. Widok faktów będzie zawierał oddzielną kolumnę dla każdego wymiaru w fakcie. Przykład: hdr__EMPLOYEES_key_id |
Widok wymiaru typu 1
Format nazwy widoku: <SCHEMAT_ZASOBU_DANYCH>.[<PREFIKS> ]<WYMIAR>
Do struktury widoku dodawane są następujące kolumny nagłówka:
Kolumna |
Typ |
Opis |
---|---|---|
hdr_{dimension-name}_key_id | int64 |
Sekwencja zwiększana dla każdego rekordu. |
hdr__deleted | Wartość logiczna |
Wskazuje, czy rekord został usunięty z tabeli wymiarów. |
Widok wymiaru typu 2
Format nazwy widoku: <SCHEMAT_WEWNĘTRZNY>.[<PREFIKS> ]<WYMIAR>
Do struktury widoku dodawane są następujące kolumny nagłówka:
Kolumna |
Typ |
Opis |
---|---|---|
hdr_{dimension-name}_key_id |
int64 |
Sekwencja zwiększana dla każdego rekordu. |
hdr__from_timestamp | znacznik czasu |
Znacznik czasu rozpoczęcia w UTC dla tej wersji rekordu. Kolumna może na przykład wskazywać datę, kiedy klient zaczął mieszkać pod określonym adresem. Ta kolumna umożliwia:
W przypadku wymiaru typu 2 ze zdenormalizowanymi elementami jest to znacznik czasu ze zaktualizowanego zestawu danych w zasobie danych pamięci masowej lub do transformacji. |
hdr__to_timestamp | znacznik czasu |
Znacznik czasu zakończenia w UTC wersji rekordu. Ta kolumna służy do rozgraniczenia zakresu dat dla danej wersji rekordu. Kolumna może na przykład wskazywać datę, kiedy klient przestał mieszkać pod określonym adresem. Zobacz też opis kolumny hdr_from_timestamp powyżej. |
hdr__operation | varchar(1) |
Operacje pełnego ładowania:
Operacje przetwarzania zmian (przy użyciu tabel zmian):
Działania wynikające z operacji porównywania i zastosowania:
|
hdr__was_current_from_timestamp | znacznik czasu |
Pokazuje znacznik czasowy UTC określający, kiedy została zastosowana ostatnia aktualizacja do rekordu. Kolumna ta wraz z kolumną hdr__was_current_to_timestamp umożliwia analizę danych według określonej daty, z wykorzystaniem tylko dostępnej wtedy wiedzy. Załóżmy na przykład, że codziennie o godzinie 2:00 obliczasz sumę zamówień z poprzedniego dnia. Tak więc 1 grudnia łączna suma zamówień z poprzedniego dnia wynosi 1 000 000 USD. Jednak 2 grudnia zostaje wstawiony rekord wskazujący, że 30 listopada złożono zamówienie na łączną kwotę 500 000 USD. Tak więc kwota zamówienia z 30 listopada wyniosła w rzeczywistości 1 500 000 USD! Jeśli jednak wygenerujesz raport dla łącznej sumy zamówień z 30 listopada na podstawie tego, co było aktualne 1 grudnia o godzinie 2:00, wynik będzie nadal wynosić 1 000 000 USD. |
hdr__was_current_to_timestamp | znacznik czasu |
Ta kolumna jest wypełniana, gdy rekord jest zastępowany nowszym rekordem. Pokazuje znacznik czasu w UTC, kiedy rekord został przetworzony, a zatem nie jest już najnowszym rekordem. Zobacz też opis kolumny hdr_was_current_from_timestamp powyżej. |