Architektura zestawów danych w hurtowni danych w chmurze
Qlik Talend Data Integration pozwala tworzyć, zarządzać i kontrolować potok danych analitycznych, dostarczając dane aż do konsumentów. Podczas generowania rekordów danych w hurtowni danych w chmurze z Qlik Talend Data Integrationgenerowane są tabele pamięci masowej, tabele zmian i widoki.
Intuicyjny interfejs użytkownika pomaga budować, modelować i realizować rurociągi danych. Automatyczne generowanie schematów dla magazynów danych operacyjnych (ODS) i magazynów danych historycznych (HDS) bez konieczności ręcznego kodowania.
-
Umieszczanie
Zadanie umieszczenia Qlik Talend Data Integration kontroluje ciągłe umieszczanie danych ze źródeł danych do strefy umieszczania. Przykład na diagramie opisuje, jak korzystać Brama danych Qlik — ruch danych ze źródeł danych przy użyciu CDC, aby dane były aktualne. Można również używać Qlik Cloud połączeń źródłowych do wykonywania pełnych ładowań, które można zaplanować do okresowego przeładowywania.
Informacje o tym, kiedy należy użyć Brama danych ruchu danych, zawiera temat Kiedy jest wymagana brama Brama danych ruchu danych?
InformacjaTabele w strefie umieszczania są generowane do użytku wewnętrznego przez Qlik Talend Data Integration zadania pamięci masowej danych. Nie używaj tabel umieszczania w żadnych innych procesach. -
Pamięć masowa
Zadanie pamięci masowej kontroluje, kiedy dane są stosowane do tabel pamięci masowej, a także tworzy i zarządza tabelami i widokami zewnętrznymi.
-
Widoki zewnętrzne
Najlepszą praktyką podczas korzystania z danych jest używanie widoków. Widoki zapewniają szereg korzyści w porównaniu z tabelami, w tym lepszą współbieżność danych.
Korzystanie z widoków na żywo
Możesz uzyskać dostęp do danych bieżących (ODS) i danych historycznych (HDS) w widokach na żywo. Widoki na żywo zawierają dane z tabel zmian, które nie zostały jeszcze zastosowane do aktualnych lub poprzednich tabel. Dzięki temu możesz zobaczyć dane z mniejszym opóźnieniem, bez konieczności częstego stosowania zmienionych danych. Możliwość opóźnienia scalenia pozwala na zmniejszenie kosztów i wymagań dotyczących przetwarzania w platformie docelowej.
Kolejną korzyścią wynikającą z zastosowania widoków na żywo jest to, że warstwa obliczeniowa nie musi działać przez cały czas.
-
Umieszczanie może wskazywać na jawną hurtownię, która może być mała, ponieważ wykonuje tylko operacje INSERT w celu szybkiego wykonywania operacji.
-
Proces przechowywania, uruchamiany na przykład raz dziennie, może obudzić dużą warstwę obliczeniową do przetwarzania.
-
Można poprawić opóźnienia, ponieważ nie musimy już wprowadzać zmian w ciągu dnia. Kiedy wstawione nowe rekordy są dostępne w tabeli zmian, są one od razu dostępne w widokach na żywo.
Schematy
Artefakty są generowane w schemacie wewnętrznym i schemacie zadania danych.
-
Schemat wewnętrzny zawiera tabele danych fizycznych.
-
Schemat zadania danych zawiera widoki, które można wykorzystać do korzystania z danych.
Gdy schemat jest powiązany z więcej niż jednym zadaniem danych, każde zadanie danych musi używać unikatowego prefiksu dla tabel i widoków. Prefiks można ustawić w ustawieniach zadania danych.
Tylko schematy wewnętrzne są sprawdzane pod kątem konfliktów nazw. W przypadku innych schematów należy sprawdzić, czy w nazwach tabel nie występują konflikty nazw. Najlepsza praktyka polega na nadawaniu schematowi wewnętrznemu takiej samej nazwy jak schematowi zadania danych z dodanym elementem _internal. To skutecznie zapewni, że każda kombinacja schematu i prefiksu będzie unikatowa.
Tabele
Poniższe tabele są generowane w schemacie wewnętrznym.
-
Bieżąca tabela (ODS)
Ta tabela zawiera repliki źródła danych uaktualnione o zmiany podczas ostatniego okresu stosowania.
-
Poprzednia tabela (HDS)
Ta tabela zawiera dane historyczne typu 2. Jest ona generowana tylko wtedy, gdy w ustawieniach zadania danych włączona jest opcja Historia.
Gdy rekord tabeli źródłowej jest aktualizowany, za każdym razem do poprzedniej tabeli dodawany jest nowy rekord. Zapis historii jest kopią poprzedniego, aktualnego zapisu, który zawiera również informacje o tym, co zostało zaktualizowane i kiedy było ważne.
Do przeglądania danych historycznych użyj widoku historii lub widoku historii na żywo. Więcej informacji zawierają tematy Widok historii i Widoki na żywo historii.
-
Tabela zmian
Ta tabela zawiera wszystkie zmiany, które nie zostały jeszcze zastosowane do bieżącej tabeli. Jest ona generowana tylko wtedy, gdy używany jest tryb umieszczania Pełne ładowanie i CDC.
Widoki
W schemacie celu zadania danych tworzone są następujące widoki. To, jakie widoki są tworzone, zależy od tego, czy włączone są widoki na żywo i historia oraz czy używana jest obsługa zmian.
-
Bieżący widok
-
Widok na żywo
-
Widok zmian
-
Widoki historii
-
Widoki historii na żywo
Bieżący widok
Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current
Do struktury tabeli dodawane są następujące kolumny nagłówka.
Pole | Typ | Opis |
---|---|---|
hdr__key_hash | varbinary(20) |
Skrót wszystkich kluczy podstawowych rekordów. Format skrótu to SHA1. Kolumny są oddzielone znakiem cofania. Ta kolumna nie jest generowana w zadaniach Data mart. |
hdr__key_id | int64 |
Sekwencja zwiększana dla każdego rekordu. Ta kolumna jest generowana tylko w zadaniach Data mart. |
hdr__from_timestamp | znacznik czasu |
Znacznik czasu w UTC
|
hdr__operation | string(1) |
Ostatnia operacja tego rekordu.
|
hdr__inserted_timestamp | znacznik czasu | Znacznik czasowy UTC pierwszego dodania klucza. W przypadku korzystania z pełnego ładowania, czas rozpoczęcia pełnego ładowania. |
hdr__modified_timestamp | znacznik czasu | Znacznik czasowy UTC określający, kiedy została zastosowana ostatnia aktualizacja. |
Widok na żywo
Widoki na żywo pokazują widok dla każdej wybranej tabeli źródłowej, który scala tę tabelę ze zmianami z tabeli zmian. Umożliwia to korzystanie z zapytań z podglądem danych na żywo bez konieczności oczekiwania na kolejny cykl stosowania. Zmiany scalone z widoku tabeli zmian nie mają spójności transakcyjnej między tabelami.
Widoki na żywo są tworzone tylko wtedy, gdy w ustawieniach zadania danych włączona jest opcja Widoki na żywo.
Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME><sufiks dla widoków na żywo>
Pole | Typ | Opis |
---|---|---|
hdr__key_hash | varbinary(20) |
Skrót wszystkich kluczy podstawowych rekordów. Format skrótu to SHA1. Kolumny są oddzielone znakiem cofania. Ta kolumna nie jest generowana w zadaniach Data mart. |
hdr__key_id | int64 |
Sekwencja zwiększana dla każdego rekordu. Ta kolumna jest generowana tylko w zadaniach Data mart. |
hdr__from_timestamp | znacznik czasu |
Znacznik czasu w UTC
|
hdr__operation | string(1) |
Ostatnia operacja tego rekordu.
|
hdr__inserted_timestamp | znacznik czasu | Znacznik czasowy UTC pierwszego dodania klucza. W przypadku korzystania z pełnego ładowania, czas rozpoczęcia pełnego ładowania. |
hdr__modified_timestamp | znacznik czasu | Znacznik czasowy UTC określający, kiedy została zastosowana ostatnia aktualizacja. |
hdr__store | varchar(10) |
Oznacza miejsce, w którym znajduje się rekord.
|
Widok zmian
To jest widok tabeli zmian w schemacie umieszczania dla każdej wybranej tabeli źródłowej.
Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes
Do struktury tabeli dodawane są następujące pola nagłówka.
Pole | Typ | Opis |
---|---|---|
hdr__change_identifier | ciąg znaków(50) |
Identyfikator zmiany to ciąg znaków składający się z dwóch części:
|
hdr__from_timestamp | znacznik czasu |
Znacznik czasu w UTC
|
hdr__to_timestamp | znacznik czasu |
Znacznik czasu w UTC
|
hdr__operation | string(1) |
Ostatnia operacja tego rekordu.
|
hdr__timestamp | znacznik czasu |
Znacznik czasu w UTC. |
hdr__key_hash | binary(20) |
Skrót wszystkich kluczy podstawowych rekordów. Ta kolumna nie jest generowana w zadaniach Data mart. |
hdr__key_id | int64 |
Sekwencja zwiększana dla każdego rekordu. Ta kolumna jest generowana tylko w zadaniach Data mart. |
Widok historii
Widok historii jest generowany w schemacie zasobu danych dla każdej wybranej tabeli źródłowej, jeśli w ustawieniach zadania danych włączona jest opcja Historia. Do struktury tabeli dodawane są następujące pola nagłówka.
Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< sufiks dla widoków histori>
Pole | Typ | Opis |
---|---|---|
hdr__key_hash | binary(20) |
Skrót wszystkich kluczy podstawowych rekordów. Ta kolumna nie jest generowana w zadaniach Data mart. |
hdr__key_id | int64 |
Sekwencja zwiększana dla każdego rekordu. Ta kolumna jest generowana tylko w zadaniach Data mart. |
hdr__store | varchar(10) |
Oznacza miejsce, w którym znajduje się rekord.
|
hdr__operation | string(1) |
Ostatnia operacja tego rekordu.
|
hdr__deleted | bit |
Wskazuje, czy rekord jest miękko usuwany, na podstawie tego, czy hdr__operation wynosi D lub d. |
hdr__was _current_from_timestamp | znacznik czasu |
Znacznik czasowy w UTC dla pierwszego czasu, kiedy rekord był aktualny. |
hdr__was _current_to_timestamp | znacznik czasu |
Znacznik czasowy w UTC dla ostatniego czasu, kiedy rekord był aktualny. |
Widoki na żywo historii
W schemacie zasobu danych dla każdej wybranej tabeli źródłowej generowany jest widok na żywo historii połączonej ze zmianami z tabeli zmian. Do struktury tabeli dodawane są następujące pola nagłówka.
Nazewnictwo: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< sufiks dla widoków na żywo historii>
Pole | Typ | Opis |
---|---|---|
hdr__key_hash | binary(20) |
Skrót wszystkich kluczy podstawowych rekordów. Ta kolumna nie jest generowana w zadaniach Data mart. |
hdr__key_id | int64 |
Sekwencja zwiększana dla każdego rekordu. Ta kolumna jest generowana tylko w zadaniach Data mart. |
hdr__store | varchar(10) |
Oznacza miejsce, w którym znajduje się rekord.
|
hdr__operation | string(1) |
Ostatnia operacja tego rekordu.
|
hdr__deleted | bit |
Wskazuje, czy rekord jest miękko usuwany, na podstawie tego, czy hdr__operation wynosi D lub d. |