Przeskocz do zawartości głównej

Tworzenie zasobu danych w hurtowni danych w chmurze z obsługą zmian

Zasób danych pamięci masowej tworzy się na stronie głównej Data Services, do której masz dostęp z paska nawigacyjnego. Zasób danych w pamięci pobiera dane z obszaru umieszczania w chmurze, np. Snowflake, i konwertuje je na tabele do analiz. Dane są okresowo stosowane do tabel ze zmian w wejściowym zasobie danych przy użyciu technologii CDC (Change Data Capture). Widoki tworzy się również w celu zapewnienia bardziej wszechstronnego dostępu do danych w przechowywanych tabelach.

Wprowadzenie

Podczas generowania danych w hurtowni danych w chmurze generowane są tabele pamięci masowej, tabele zmian i widoki. Najlepszą praktyką podczas korzystania z danych jest używanie widoków. Widoki zapewniają szereg korzyści w porównaniu z tabelami, w tym lepszą współbieżność danych. Jeśli nie masz pewności, którego widoku użyć, najpierw wypróbuj standardowy widok tabel.

Tabele i widoki generowane przez zasób danych pamięci masowej, który odczytuje z zasobu danych do umieszczenia przy użyciu obsługi zmian

Zawsze tworzone są następujące tabele i widoki:

  • Tabele

    Tabele zawierają przechowywane dane fizyczne.

  • Widoki standardowe dla tabel

    Widoki standardowe tabel umożliwiają wyświetlanie tylko danych zastosowanych do tabel. Oznacza to, że nie zawierają one najnowszych danych tabeli zmian, które nie zostały jeszcze zastosowane. Widoków standardowych można używać, gdy spójność liczy się bardziej od czasu opóźnień.

  • Widoki tabel zmian

    To jest widok tabeli zmian w schemacie umieszczania.

Możesz również utworzyć następujące widoki zaawansowane:

  • Widoki standardowe z nagłówkami

    Jest to standardowy widok tabeli z dodatkowymi polami nagłówka generowanymi przez zasób danych pamięci masowej.

  • Widoki na żywo

    Widoki na żywo zawierają dane z tabel zmian, które nie zostały jeszcze zastosowane. Dzięki temu możesz zobaczyć dane z mniejszym opóźnieniem, bez konieczności częstego stosowania zmienionych danych. Widoki na żywo są mniej wydajne niż widoki standardowe i wymagają więcej zasobów.

Więcej szczegółowych informacji na temat generowanych tabel i widoków zawiera temat Struktura generowanych tabel i widoków.

Tworzenie zasobu danych w pamięci masowej

  1. Kliknij Dodaj nowy na stronie głównej Data Integration, a następnie wybierz Utwórz zasób danych.
  2. W oknie dialogowym Utwórz zasób danych wypełnij następujące pola:

    • Nazwa: Nazwa zasobu danych.

    • Przestrzeń Określ przestrzeń docelową zasobu danych.

    • Typ zasobu: Wybierz Pamięć masowa (hurtownia danych w chmurze).

    • Wybierz Otwórz, aby otworzyć zasób danych po jego utworzeniu.

    Gdy wszystko będzie gotowe, kliknij Utwórz.

  3. Kliknij Wybierz dane źródłowe.

  4. Wybierz zasób danych do umieszczania, którego chcesz użyć jako źródła zasobu danych pamięci masowej, i kliknij Wybierz. Wybierz zasób danych do umieszczania z typem zadania Pełne ładowanie + CDC. Typ zadania jest pokazany w widoku listy.

    Wyświetlone zostanie okno dialogowe Ustawienia.

  5. Konfigurowanie ustawień Pamięci masowej

    • Połączenie

      Wybierz połączenie danych z uprawnieniem do zapisu w hurtowni danych w chmurze i uprawnieniem do odczytu w hurtowni danych w chmurze używanej przez zasób danych do umieszczania. Jeśli nie masz połączenia danych, musisz je utworzyć.

      InformacjaUwierzytelnianie OAuth nie jest obsługiwane w przypadku hybrydowego dostarczania danych.
    • Schemat wewnętrzny

      To jest nazwa schematu, w którym zostaną utworzone tabele.

    • Schemat zasobu danych

      Jest to nazwa schematu, w którym zostaną utworzone widoki.

    InformacjaMożna użyć takiego samego schematu jak Schemat wewnętrzny i Schemat zasobu danych, ale ich rozdzielenie umożliwia ustawienie innego dostępu do schematów. Możesz na przykład ograniczyć dostęp do Schematu wewnętrznego i zezwolić na dostęp do Schematu zasobu danych wszystkim użytkownikom.
  6. Konfigurowanie ustawień Tabel i widoków

    Zawsze będą tworzone następujące elementy:

    • Tabele

    • Standardowe widoki dla tabel

    • Widoki standardowe dla tabel ze zmianami

    Możesz również utworzyć następujące widoki:

    • Widoki standardowe z nagłówkami

    • Widoki na żywo

      Jeśli chcesz, aby widoki na żywo były spójne transakcyjnie, wybierz Spójne transakcyjnie widoki na żywo. Po wybraniu tej opcji tabele statusu są aktualizowane po każdej aktualizacji zbiorczej — domyślnie co minutę, jeśli nastąpią zmiany. Wymaga to częstszego dostępu do bazy danych w chmurze. W zależności od dostawcy bazy danych w chmurze może to oznaczać, że baza danych w chmurze nigdy nie zostanie zawieszona z powodu braku aktywności.

  7. Konfigurowanie ustawień Prefiksów i sufiksów

    Aby identyfikować zasoby generowane przez ten zasób danych, możesz ustawić prefiks. Umożliwia to też ponowne użycie tego samego schematu w wielu zasobach danych, ponieważ tabele i widoki można rozróżniać na podstawie prefiksu.

    Możesz także ustawić sufiksy dla generowanych widoków.

  8. Konfigurowanie ustawień Środowiska uruchomienia

    • Wartość Zastosuj interwał można określić w minutach.

      Określa ona, jak często zmieniane dane są stosowane do tabeli w pamięci masowej. Zakres interwału wynosi od 1 minuty do 1440 minut (7 dni).

      Zalecamy, aby nie ustawiać tego interwału na mniej niż częstotliwość aktualizacji w powiązanym zadaniu Qlik Replicate. Częstsze stosowanie danych będzie również wiązało się z wyższymi kosztami zasobów w miejscu docelowym w chmurze.

      Zamiast tego, jeśli potrzebujesz danych o niskim poziomie opóźnień co pewien czas, możesz zachować wysoką wartość Zastosuj interwał i korzystać z podglądów na żywo.

    • Możesz ustawić maksymalną liczbę połączeń z bazą danych w Wykonaniu równoległym.

    Parametry Środowiska uruchomienia można zmienić po skatalogowaniu i uruchomieniu zasobu danych. Zmiana wpłynie na kolejne rzeczywiste przetwarzanie.

  9. Kliknij OK, aby potwierdzić ustawienia. Możesz teraz wyświetlić podgląd struktury tabeli przed rozpoczęciem generowania zestawów danych.

  10. Kliknij Zapisz, aby zapisać zasób danych.

  11. Kliknij Uruchom, aby rozpocząć generowanie zestawów danych.

Tabele zostaną teraz wygenerowane i wypełnione danymi, jeśli wykonano już pełne ładowanie danych do umieszczania.

Monitorowanie generowania tabeli

Stan i postęp generowania tabeli możesz monitorować po kliknięciu Monitoruj. Podczas pierwszego ładowania Stan pełnego ładowania przedstawia postęp operacji. Po przetworzeniu zmian możesz również wyświetlić status i postępy Ostatniej partii zmian.

W odniesieniu do każdej tabeli lub zmiany możesz wyświetlić następujące szczegóły:

  • Stan

    Pokazuje aktualny stan tej tabeli lub zmiany.

    • Zakończono — ładowanie lub zmiana zakończyły się pomyślnie.

    • Ładowanie — trwa przetwarzanie tabeli lub zmiany.

    • W kolejce — tabela lub zmiana czeka na przetworzenie

    • Błąd — podczas przetwarzania tabeli lub zmiany wystąpił błąd.

  • Rozpoczęto

    Czas rozpoczęcia ładowania lub przetwarzania zmian.

  • Zakończono

    Czas zakończenia ładowania lub przetwarzania zmian.

  • Czas trwania

    Czas trwania ładowania lub przetwarzania zmian w formacie gg:mm:ss.

  • Przetworzone rekordy

    Liczba rekordów przetworzonych w ramach ładowania lub zmiany.

  • Przepustowość (rekordy/sekundę)

    Przepustowość jest aktualizowana dopiero po zakończeniu ładowania.

  • Komunikat

    Wyświetla komunikat o błędzie w razie niepowodzenia ładowania lub zmiany.

Tabele będą ciągle aktualizowane nowymi danymi w miarę aktualizowania obszaru umieszczania przez zadanie replikacji. Każda partia dotyczy rekordów z określonego przedziału czasu. Przedział czasu ostatniej partii możesz zobaczyć w Ostatniej partii zmian.

Kartę zasobu danych można też sprawdzić na stronie głównej Data Services. Kiedy Dane są zaktualizowane do pokazuje datę i godzinę ostatniej aktualizacji, tabele powinny być dostępne w sekcji Dane w hubie Analytics Hub.

Dane ze wszystkich transakcji źródłowych do czasu pokazywanego w Zasób danych jest zaktualizowany do są dostępne do użycia z tego zasobu danych. Te informacje są dostępne dla zasobu danych po załadowaniu wszystkich tabel i zastosowaniu pierwszego zestawu zmian. Po wybraniu generowania widoków na żywo możesz również wyświetlać, kiedy widoki na żywo są aktualizowane.

Jeśli istnieje partia zmian przed zakończeniem wstępnego ładowania, ustawienie Dane są zaktualizowane do na karcie zasobu zostanie zaktualizowane dopiero po zakończeniu wstępnego ładowania i zastosowaniu pierwszej partii zmian. Załóżmy na przykład, że ładujesz zasób danych, który zawiera tabelę zamówień zawierającą 1 milion zamówień oraz tabelę szczegółów zamówień zawierającą 10 milionów szczegółów zamówień. Pełne załadowanie tabel zajmuje odpowiednio 10 i 20 minut. Najpierw ładowana jest tabela zamówień, a następnie tabela szczegółów zamówień. Podczas ładowania tabeli zamówień wstawiono nowe zamówienie. Tak więc po załadowaniu szczegółów zamówienia mogą one zawierać szczegóły nowego zamówienia, które nie istnieje jeszcze w tabeli zamówień. Tabele zamówień i zamówień będą zsynchronizowane i w pełni zaktualizowane do tego samego punktu w czasie dopiero po zastosowaniu pierwszej partii zmian.

InformacjaPo rozpoczęciu generowania tabel nie można zmienić ustawień ani dołączonych zestawów danych.

Operacje na zasobie danych pamięci masowej

Z menu zasobów na stronie głównej Data Services można wykonać następujące operacje na zasobie danych pamięci masowej.

  • Otwórz

    Powoduje otwarcie zasobu danych pamięci masowej. Umożliwia przeglądanie struktury tabeli i szczegółów dotyczących zasobu danych oraz monitorowanie statusu pełnego załadowania i partii zmian.

  • Edytuj

    Umożliwia edycję nazwy i opisu zasobu oraz dodawanie znaczników.

  • Zatrzymaj

    Powoduje zatrzymanie działania zasobu danych. Zasób danych nie będzie już aktualizował tabel.

  • Wznów

    Umożliwia wznowienie działania zasobu danych od momentu, w którym został zatrzymany.

  • Usuń

    Powoduje usunięcie zasobu danych.

Ładowanie tabel

Tabele można załadować z zasobu danych pamięci masowej, kiedy zasób danych jest otwarty, a aplikacja działa. Ładowanie rozpoczyna się po przetworzeniu następnej partii zmian.

Jeśli dane do umieszczania mają ponad 96 godzin, przed uruchomieniem zasobu danych trzeba będzie ponownie załadować tabele w zasobie danych do umieszczenia, który zasila ten zasób danych.

  • Aby załadować wszystkie tabele:

    Kliknij , a następnie Przeładuj.

  • Aby załadować określone tabele:

    1. Otwórz kartę Monitoruj.

    2. Wybierz tabele, które chcesz załadować.

    3. Kliknij przycisk Przeładuj tabele.

Jeśli wystąpił błąd w zadaniu Replicate, musisz załadować zasób danych do umieszczania z zadania Replicate, zanim będzie można wykonać załadowanie w zasobie danych pamięci masowej.

Struktura generowanych tabel i widoków

W tej sekcji opisano strukturę tabel i widoków generowanych w schemacie zasobu danych i schemacie wewnętrznym.

Wszystkimi tabelami i widokami zarządza Qlik Data Services. Nie zmieniaj danych przy użyciu innych narzędzi.

Tabele

Tabele są generowane w schemacie wewnętrznym.

Nazewnictwo: <SCHEMAT_WEWNĘTRZNY>.[<PREFIKS>]<NAZWA_TABELI><sufiks do tabel>

Do struktury tabeli dodawane są następujące pola nagłówka.

Pola nagłówka tabeli
Pole Typ Opis
hdr__key_hash binary(20)

Skrót wszystkich kluczy podstawowych rekordów.

Format skrótu to SHA1. Pola są oddzielone znakiem cofania.

hdr__timestamp znacznik czasu

Znacznik czasu w UTC

  • W przypadku danych pobranych z pełnego załadowania będzie to czas rozpoczęcia pełnego załadowania.

  • W przypadku zmiany z tabel zmian będzie to pole znacznika czasu rekordu.

hdr__operation string(1)

Ostatnia operacja tego rekordu.

  • U — zaktualizowano z tabeli zmian.

  • I — wstawiono z tabeli zmian.

  • L — wstawiono przez zadanie pełnego ładowania.

Usunięcia w danych do umieszczania przekładają się na trwałe usunięcia.

Tabela stanu zasobów

Tabela stanu zasobów jest generowana w schemacie wewnętrznym. Służy ona do zachowania ostatniej zastosowanej sekwencji i ostatniej sekwencji zgłoszonej przez Qlik Replicate w celu zapewnienia spójności transakcyjnej. Wszystkie obiekty w zasobie danych korzystają z tej samej tabeli stanu zasobów.

Nazewnictwo: <SCHEMAT_WEWNĘTRZNY>.[<PREFIKS>]STAN_ZASOBU__<ID_ZASOBU_DANYCH>

Pola tabeli stanu zasobów
Pole Typ Opis
hdr__dataset_id binary(20)

Identyfikator zestawu danych.

hdr__change_seq string(35)

Zastosowana kolejność ostatnich zmian.

hdr__timestamp znacznik czasu

Zastosowany czas ostatniej zatwierdzonej transakcji w UTC.

Widoki standardowe dla tabel

Widok standardowy z nagłówkami jest generowany w schemacie zasobu danych dla każdej wybranej tabeli źródłowej. Ten widok obejmuje wszystkie pierwotne pola ze struktury tabeli, ale nie obejmuje pól nagłówka, które są dodawane do tabeli w schemacie wewnętrznym.

Nazewnictwo: <SCHEMAT_ZASOBU_DANYCH>.[<PREFIKS>]<NAZWA_TABELI><Sufiks dla standardowych widoków tabel>

Widoki standardowe z nagłówkami

Widok standardowy z nagłówkami jest generowany opcjonalnie w schemacie zasobu danych dla każdej wybranej tabeli źródłowej. Ten widok zawiera pola nagłówka, które są dodawane do tabeli.

Nazewnictwo: <SCHEMAT_ZASOBU_DANYCH>.[<PREFIKS>]<NAZWA_TABELI><Sufiks dla standardowych widoków z nagłówkami>

Widoki na żywo

Widoki na żywo pokazują widok dla każdej wybranej tabeli źródłowej, który scala tę tabelę ze zmianami z tabeli zmian. Umożliwia to korzystanie z zapytań z podglądem danych na żywo bez konieczności oczekiwania na kolejny cykl stosowania. Zmiany scalone z widoku tabeli zmian mają spójność transakcyjną między tabelami w przypadku używania zdarzeń z Replicate. Widoki na żywo są generowane w schemacie zasobu danych.

Zasoby danych podglądu na żywo domyślnie wykonują operację w miejscu docelowym w chmurze co 1 minutę, jeśli wystąpią zmiany. Można to zmienić w Qlik Replicate.

Nazewnictwo: <SCHEMAT_ZASOBU_DANYCH>.[<PREFIKS>]<NAZWA_TABELI><sufiks dla widoków na żywo>

Widoki tabel zmian

To jest widok tabeli zmian w schemacie umieszczania dla każdej wybranej tabeli źródłowej.

Nazewnictwo: <SCHEMAT_ZASOBU_DANYCH>.[<PREFIKS>]<NAZWA_TABELI><sufiks dla widoków tabeli zmian>

Do struktury tabeli dodawane są następujące pola nagłówka.

Pola nagłówka tabeli zmian
Pole Typ Opis
hdr__change_seq string(35) Sekwencja zmian z Qlik Replicate
hdr__operation string(1)

Ostatnia operacja tego rekordu.

  • U — zaktualizowane

  • I — wstawione.

  • D — usunięte.

hdr__timestamp znacznik czasu

Znacznik czasu w UTC z Qlik Replicate.

hdr__key_hash binary(20)

Skrót wszystkich kluczy podstawowych rekordów z tabeli zmian Qlik Replicate.