Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Architektura zbiorów danych w hurtowni danych w chmurze

Qlik Talend Data Integration pozwala tworzyć, zarządzać i kontrolować potok danych analitycznych, dostarczając dane aż do konsumentów. Podczas generowania rekordów danych w hurtowni danych w chmurze z Qlik Talend Data Integrationgenerowane są tabele pamięci masowej, tabele zmian i widoki.

Intuicyjny interfejs użytkownika pomaga budować, modelować i realizować rurociągi danych. Automatyczne generowanie schematów dla magazynów danych operacyjnych (ODS) i magazynów danych historycznych (HDS) bez konieczności ręcznego kodowania.

Architektura Qlik Talend Data Integration potoku danych z Brama danych Qlik — ruch danych wykorzystaniem CDC

  • Umieszczanie

    Zadanie umieszczenia Qlik Talend Data Integration kontroluje ciągłe umieszczanie danych ze źródeł danych do strefy umieszczania. Przykład na diagramie opisuje, jak korzystać Brama danych Qlik — ruch danych ze źródeł danych przy użyciu CDC, aby dane były aktualne. Można również używać Qlik Cloud połączeń źródłowych do wykonywania pełnych ładowań, które można zaplanować do okresowego przeładowywania.

    Informacje o tym, kiedy należy użyć Brama danych ruchu danych, zawiera temat Kiedy jest wymagana brama Brama danych ruchu danych?

    InformacjaTabele w strefie umieszczania są generowane do użytku wewnętrznego przez Qlik Talend Data Integration zadania pamięci masowej danych. Nie używaj tabel umieszczania w żadnych innych procesach.
  • Pamięć masowa

    Zadanie pamięci masowej kontroluje, kiedy dane są stosowane do tabel pamięci masowej, a także tworzy i zarządza tabelami i widokami zewnętrznymi.

  • Widoki zewnętrzne

    Najlepszą praktyką podczas korzystania z danych jest używanie widoków. Widoki zapewniają szereg korzyści w porównaniu z tabelami, w tym lepszą współbieżność danych.

Korzystanie z widoków na żywo

Możesz uzyskać dostęp do danych bieżących (ODS) i danych historycznych (HDS) w widokach na żywo. Widoki na żywo zawierają dane z tabel zmian, które nie zostały jeszcze zastosowane do aktualnych lub poprzednich tabel. Dzięki temu możesz zobaczyć dane z mniejszym opóźnieniem, bez konieczności częstego stosowania zmienionych danych. Możliwość opóźnienia scalenia pozwala na zmniejszenie kosztów i wymagań dotyczących przetwarzania w platformie docelowej.

Kolejną korzyścią wynikającą z zastosowania widoków na żywo jest to, że warstwa obliczeniowa nie musi działać przez cały czas.

  • Umieszczanie może wskazywać na jawną hurtownię, która może być mała, ponieważ wykonuje tylko operacje INSERT w celu szybkiego wykonywania operacji.

  • Proces przechowywania, uruchamiany na przykład raz dziennie, może obudzić dużą warstwę obliczeniową do przetwarzania.

  • Można poprawić opóźnienia, ponieważ nie musimy już wprowadzać zmian w ciągu dnia. Kiedy wstawione nowe rekordy są dostępne w tabeli zmian, są one od razu dostępne w widokach na żywo.

Schematy

Artefakty są generowane w schemacie wewnętrznym i schemacie zadania danych.

  • Schemat wewnętrzny zawiera tabele danych fizycznych.

  • Schemat zadania danych zawiera widoki, które można wykorzystać do korzystania z danych.

    Gdy schemat jest powiązany z więcej niż jednym zadaniem danych, każde zadanie danych musi używać unikatowego prefiksu dla tabel i widoków. Prefiks można ustawić w ustawieniach zadania danych.

Tylko schematy wewnętrzne są sprawdzane pod kątem konfliktów nazw. W przypadku innych schematów należy sprawdzić, czy w nazwach tabel nie występują konflikty nazw. Najlepsza praktyka polega na nadawaniu schematowi wewnętrznemu takiej samej nazwy jak schematowi zadania danych z dodanym elementem _internal. To skutecznie zapewni, że każda kombinacja schematu i prefiksu będzie unikatowa.

InformacjaWszystkimi tabelami i widokami zarządza Qlik Talend Data Integration. Nie zmieniaj danych przy użyciu innych narzędzi.

Tabele

Poniższe tabele są generowane w schemacie wewnętrznym.

  • Bieżąca tabela (ODS)

    Ta tabela zawiera repliki źródła danych uaktualnione o zmiany podczas ostatniego okresu stosowania.

  • Poprzednia tabela (HDS)

    Ta tabela zawiera dane historyczne typu 2. Jest ona generowana tylko wtedy, gdy w ustawieniach zadania danych włączona jest opcja Historia.

    Gdy rekord tabeli źródłowej jest aktualizowany, za każdym razem do poprzedniej tabeli dodawany jest nowy rekord. Zapis historii jest kopią poprzedniego, aktualnego zapisu, który zawiera również informacje o tym, co zostało zaktualizowane i kiedy było ważne.

    Do przeglądania danych historycznych użyj widoku historii lub widoku historii na żywo. Więcej informacji zawierają tematy Widok historii i Widoki na żywo historii.

  • Tabela zmian

    Ta tabela zawiera wszystkie zmiany, które nie zostały jeszcze zastosowane do bieżącej tabeli. Jest ona generowana tylko wtedy, gdy używany jest tryb umieszczania Pełne ładowanie i CDC.

Widoki

W schemacie celu zadania danych tworzone są następujące widoki. To, jakie widoki są tworzone, zależy od tego, czy włączone są widoki na żywo i historia oraz czy używana jest obsługa zmian.

  • Bieżący widok

  • Widok na żywo

  • Widok zmian

  • Widoki historii

  • Widoki historii na żywo

Bieżący widok

Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current

Do struktury tabeli dodawane są następujące kolumny nagłówka.

Pola nagłówka tabeli
Pole Typ Opis
hdr__key_hash varbinary(20)

Skrót wszystkich kluczy podstawowych rekordów. Format skrótu to SHA1. Kolumny są oddzielone znakiem cofania.

Ta kolumna nie jest generowana w zadaniach Data mart.

hdr__key_id int64

Sekwencja zwiększana dla każdego rekordu.

Ta kolumna jest generowana tylko w zadaniach Data mart.

hdr__from_timestamp znacznik czasu

Znacznik czasu w UTC

  • W przypadku danych pobranych z pełnego załadowania będzie to czas rozpoczęcia pełnego załadowania.

  • W przypadku zmiany z tabel zmian będzie to pole znacznika czasu rekordu.

hdr__operation string(1)

Ostatnia operacja tego rekordu.

  • D - usunięte z tabeli zmian.

  • U — zaktualizowano z tabeli zmian.

  • I — wstawiono z tabeli zmian.

  • L — wstawiono przez zadanie pełnego ładowania.

  • d - usunięte z funkcji porównaj i zastosuj.

  • u - zaktualizowane z funkcji porównaj i zastosuj.

  • i - wstawione z funkcji porównaj i zastosuj.

hdr__inserted_timestamp znacznik czasu Znacznik czasowy UTC pierwszego dodania klucza. W przypadku korzystania z pełnego ładowania, czas rozpoczęcia pełnego ładowania.
hdr__modified_timestamp znacznik czasu Znacznik czasowy UTC określający, kiedy została zastosowana ostatnia aktualizacja.

Widok na żywo

Widoki na żywo pokazują widok dla każdej wybranej tabeli źródłowej, który scala tę tabelę ze zmianami z tabeli zmian. Umożliwia to korzystanie z zapytań z podglądem danych na żywo bez konieczności oczekiwania na kolejny cykl stosowania. Zmiany scalone z widoku tabeli zmian nie mają spójności transakcyjnej między tabelami.

Widoki na żywo są tworzone tylko wtedy, gdy w ustawieniach zadania danych włączona jest opcja Widoki na żywo.

Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME><sufiks dla widoków na żywo>

Pola nagłówka tabeli
Pole Typ Opis
hdr__key_hash varbinary(20)

Skrót wszystkich kluczy podstawowych rekordów. Format skrótu to SHA1. Kolumny są oddzielone znakiem cofania.

Ta kolumna nie jest generowana w zadaniach Data mart.

hdr__key_id int64

Sekwencja zwiększana dla każdego rekordu.

Ta kolumna jest generowana tylko w zadaniach Data mart.

hdr__from_timestamp znacznik czasu

Znacznik czasu w UTC

  • W przypadku danych pobranych z pełnego załadowania będzie to czas rozpoczęcia pełnego załadowania.

  • W przypadku zmiany z tabel zmian będzie to pole znacznika czasu rekordu.

hdr__operation string(1)

Ostatnia operacja tego rekordu.

  • D - usunięte z tabeli zmian.

  • U — zaktualizowano z tabeli zmian.

  • I — wstawiono z tabeli zmian.

  • L — wstawiono przez zadanie pełnego ładowania.

  • d - usunięte z funkcji porównaj i zastosuj.

  • u - zaktualizowane z funkcji porównaj i zastosuj.

  • i - wstawione z funkcji porównaj i zastosuj.

hdr__inserted_timestamp znacznik czasu Znacznik czasowy UTC pierwszego dodania klucza. W przypadku korzystania z pełnego ładowania, czas rozpoczęcia pełnego ładowania.
hdr__modified_timestamp znacznik czasu Znacznik czasowy UTC określający, kiedy została zastosowana ostatnia aktualizacja.
hdr__store varchar(10)

Oznacza miejsce, w którym znajduje się rekord.

  • CURRENT - jeśli rekord znajduje się w bieżącej tabeli fizycznej.

  • CHANGES - jeśli rekord znajduje się w tabeli zmian.

Widok zmian

To jest widok tabeli zmian w schemacie umieszczania dla każdej wybranej tabeli źródłowej.

Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes

Do struktury tabeli dodawane są następujące pola nagłówka.

Pola nagłówka tabeli zmian
Pole Typ Opis
hdr__change_identifier ciąg znaków(50)

Identyfikator zmiany to ciąg znaków składający się z dwóch części:

  • Znacznik czasu rozpoczęcia uruchomienia partii w sekundach od 1/1/1970 (ciąg 10 cyfr)

  • Sekwencja zmian z bramy replikacyjnej (35 znaków)

hdr__from_timestamp znacznik czasu

Znacznik czasu w UTC

  • W przypadku danych pobranych z pełnego załadowania będzie to czas rozpoczęcia pełnego załadowania.

  • W przypadku zmiany z tabel zmian będzie to pole znacznika czasu rekordu.

hdr__to_timestamp znacznik czasu

Znacznik czasu w UTC

  • W przypadku danych pobranych z pełnego załadowania będzie to czas rozpoczęcia pełnego załadowania.

  • W przypadku zmiany z tabel zmian będzie to pole znacznika czasu rekordu.

hdr__operation string(1)

Ostatnia operacja tego rekordu.

  • D - usunięte z tabeli zmian.

  • U — zaktualizowano z tabeli zmian.

  • I — wstawiono z tabeli zmian.

  • L — wstawiono przez zadanie pełnego ładowania.

  • d - usunięte z funkcji porównaj i zastosuj.

  • u - zaktualizowane z funkcji porównaj i zastosuj.

  • i - wstawione z funkcji porównaj i zastosuj.

hdr__timestamp znacznik czasu

Znacznik czasu w UTC.

hdr__key_hash binary(20)

Skrót wszystkich kluczy podstawowych rekordów.

Ta kolumna nie jest generowana w zadaniach Data mart.

hdr__key_id int64

Sekwencja zwiększana dla każdego rekordu.

Ta kolumna jest generowana tylko w zadaniach Data mart.

Widok historii

Widok historii jest generowany w schemacie zasobu danych dla każdej wybranej tabeli źródłowej, jeśli w ustawieniach zadania danych włączona jest opcja Historia. Do struktury tabeli dodawane są następujące pola nagłówka.

Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< sufiks dla widoków histori>

Pola nagłówka widoku historii
Pole Typ Opis
hdr__key_hash binary(20)

Skrót wszystkich kluczy podstawowych rekordów.

Ta kolumna nie jest generowana w zadaniach Data mart.

hdr__key_id int64

Sekwencja zwiększana dla każdego rekordu.

Ta kolumna jest generowana tylko w zadaniach Data mart.

hdr__store varchar(10)

Oznacza miejsce, w którym znajduje się rekord.

  • CURRENT - jeśli rekord znajduje się w bieżącej tabeli fizycznej.

  • PRIORS - jeśli rekord znajduje się w tabeli priorytetów z danymi historycznymi.

hdr__operation string(1)

Ostatnia operacja tego rekordu.

  • D - usunięte z tabeli zmian.

  • U — zaktualizowano z tabeli zmian.

  • I — wstawiono z tabeli zmian.

  • L — wstawiono przez zadanie pełnego ładowania.

  • d - usunięte z funkcji porównaj i zastosuj.

  • u - zaktualizowane z funkcji porównaj i zastosuj.

  • i - wstawione z funkcji porównaj i zastosuj.

hdr__deleted bit

Wskazuje, czy rekord jest miękko usuwany, na podstawie tego, czy hdr__operation wynosi D lub d.

hdr__was _current_from_timestamp znacznik czasu

Znacznik czasowy w UTC dla pierwszego czasu, kiedy rekord był aktualny.

hdr__was _current_to_timestamp znacznik czasu

Znacznik czasowy w UTC dla ostatniego czasu, kiedy rekord był aktualny.

Widoki na żywo historii

W schemacie zasobu danych dla każdej wybranej tabeli źródłowej generowany jest widok na żywo historii połączonej ze zmianami z tabeli zmian. Do struktury tabeli dodawane są następujące pola nagłówka.

Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< sufiks dla widoków na żywo historii>

Pola nagłówka widoku na żywo historii
Pole Typ Opis
hdr__key_hash binary(20)

Skrót wszystkich kluczy podstawowych rekordów.

Ta kolumna nie jest generowana w zadaniach Data mart.

hdr__key_id int64

Sekwencja zwiększana dla każdego rekordu.

Ta kolumna jest generowana tylko w zadaniach Data mart.

hdr__store varchar(10)

Oznacza miejsce, w którym znajduje się rekord.

  • CURRENT - jeśli rekord znajduje się w bieżącej tabeli fizycznej.

  • PRIORS - jeśli rekord znajduje się w tabeli priorytetów z danymi historycznymi.

  • CHANGES - jeśli rekord znajduje się w tabeli zmian.

hdr__operation string(1)

Ostatnia operacja tego rekordu.

  • D - usunięte z tabeli zmian.

  • U — zaktualizowano z tabeli zmian.

  • I — wstawiono z tabeli zmian.

  • L — wstawiono przez zadanie pełnego ładowania.

  • d - usunięte z funkcji porównaj i zastosuj.

  • u - zaktualizowane z funkcji porównaj i zastosuj.

  • i - wstawione z funkcji porównaj i zastosuj.

hdr__deleted bit

Wskazuje, czy rekord jest miękko usuwany, na podstawie tego, czy hdr__operation wynosi D lub d.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!