Qlik Open Lakehouse — architektura

Qlik Open Lakehouse zapewnia w pełni zarządzane, kompleksowe rozwiązanie w Qlik Talend Cloud do pozyskiwania, przetwarzania i optymalizacji danych w architekturze lakehouse opartej na formacie Iceberg. Rozwiązanie to zapewnia niskie opóźnienia zapytań i wydajne operacje na danych na dużą skalę.

Architektura Qlik Open Lakehouse łączy bezpieczną komunikację, skalowalne zasoby obliczeniowe i wydajne przetwarzanie danych, aby zapewnić nowoczesne środowisko lakehouse. Qlik Open Lakehouse wykorzystuje natywne komponenty AWS, w tym EC2 i S3.

Główne komponenty

Do utworzenia Qlik Open Lakehouse wymagane są następujące jednostki.

Brama Data Movement (CDC)

Brama ruchu danych działa w środowisku lokalnym lub w chmurze. Przechwytuje zmiany z systemów źródłowych, takich jak RDBMS, SAP lub komputery typu mainframe, i wysyła dane do strefy umieszczania Amazon S3. Nie jest to wymagane w przypadku źródeł strumieniowych.

Agent integracji sieciowej (instancja EC2)

Agent integracji sieciowej to instancja EC2, która ułatwia bezpieczną komunikację między usługami Qlik w chmurze a klastrami lakehouse w Twoim środowisku. Agent jest automatycznie wdrażany jako instancja na żądanie (On-Demand Instance) podczas procesu integracji sieciowej i jest w pełni zarządzany przez Qlik. Nowe wersje są wdrażane automatycznie po wydaniu.

Gdy integracja sieciowa działa prawidłowo, w widoku Klastry lakehouse w centrum aktywności Administracja wyświetlany jest status Połączono. Status zmienia się na Rozłączono w przypadku wystąpienia problemów z łącznością.

Klaster lakehouse (grupa Auto-Scaling EC2)

Klaster lakehouse to grupa instancji AWS EC2 odpowiedzialnych za przetwarzanie danych. Instancje klastra koordynują i wykonują obciążenia robocze w celu przetwarzania danych przychodzących z obszaru umieszczania, a po przetworzeniu przechowują dane w docelowej lokalizacji w formacie Iceberg.

Klaster lakehouse z pojedynczą instancją AWS Spot jest automatycznie tworzony podczas konfiguracji integracji sieciowej. Możesz zarządzać i tworzyć dodatkowe klastry, aby obsługiwać bieżące wymagania dotyczące architektury lakehouse. Konfigurując klaster, przyznajesz Qlik uprawnienia do tworzenia, uruchamiania, zatrzymywania, skalowania lub wycofywania serwerów w celu spełnienia wymagań dotyczących przetwarzania danych. Każdy klaster jest powiązany z jedną integracją sieciową, chociaż w ramach tej samej integracji sieciowej może działać wiele klastrów. Pojedynczy klaster może uruchamiać wiele zadań lakehouse.

Instancja AWS Spot wykorzystuje wolną pojemność Amazon EC2 przy niższych kosztach niż zwykłe instancje, ale może zostać przerwana przez AWS z niewielkim wyprzedzeniem. Domyślnie Qlik udostępnia efemeryczne instancje Spot do przetwarzania danych. Jeśli na rynku AWS Spot nie ma wystarczającej liczby dostępnych instancji Spot, Qlik automatycznie używa instancji na żądanie (On-Demand), aby zapewnić ciągłość. System powraca do instancji Spot, gdy staną się one dostępne. Technologia klastra lakehouse została zaprojektowana tak, aby płynnie przechodzić między instancjami Spot i On-Demand, przenosząc zadania między węzłami. Proces ten odbywa się automatycznie, bez konieczności ręcznej interwencji. W ustawieniach klastra można skonfigurować, ile instancji Spot i On-Demand ma być używanych w klastrze. Wykorzystanie instancji Spot pomaga obniżyć bieżące koszty obliczeniowe Qlik Open Lakehouse.

Oprócz zdefiniowania liczby instancji Spot i On-Demand do użycia, można skonfigurować strategię skalowania, która najlepiej odpowiada obciążeniu i budżetowi projektu. Do klastra można zastosować następujące strategie skalowania:

Niski koszt: Idealne rozwiązanie dla środowisk programistycznych lub testowych (QA) oraz obciążeń, które nie zależą od świeżych danych w czasie rzeczywistym. Qlik dąży do utrzymania kosztów na jak najniższym poziomie, co skutkuje sporadycznymi okresami dużych opóźnień.
Niskie opóźnienie: Zaprojektowane dla obciążeń o znaczeniu niekrytycznym, w których akceptowalna jest świeżość danych w czasie zbliżonym do rzeczywistego. Chociaż ta strategia ma na celu zapewnienie niskich opóźnień, mogą wystąpić ich krótkie skoki.
Stałe niskie opóźnienie: Odpowiednie dla środowisk produkcyjnych z danymi na dużą skalę, które muszą mieć świeżość danych w czasie rzeczywistym. Qlik proaktywnie skaluje instancje, aby zapewnić niskie opóźnienia, co może wiązać się z wyższymi kosztami.
Brak skalowania: Dobra opcja dla obciążeń, które przetwarzają stałą ilość danych. Wybierz tę opcję, aby zachować statyczną liczbę instancji bez automatycznego skalowania i z przewidywalnymi kosztami.

Zasobniki Amazon S3

Zasobniki Amazon S3 są używane w następujący sposób:

Zasobnik umieszczania danych: Surowe dane CDC trafiają do zasobnika S3 przed transformacją.
Zasobnik konfiguracji: Przechowuje metadane i konfiguracje używane przez system lakehouse.
Pamięć masowa tabel Iceberg: Dane są przechowywane i optymalizowane w tabelach w formacie Iceberg. Używany zasobnik jest określany przez połączenie z katalogiem projektu.

Przepływ wysokiego poziomu

Początkowa konfiguracja

Udostępnianie VPC i infrastruktury — skonfiguruj VPC na swoim koncie AWS wraz z podsieciami, zasobnikami S3 i rolami IAM, postępując zgodnie z instrukcjami w dokumentacji Qlik.
Konfiguracja integracji sieciowej — administrator dzierżawy tworzy integrację sieciową w Qlik Talend Cloud przy użyciu wcześniej udostępnionych szczegółów infrastruktury.
Wdrożenie komponentów Qlik — Qlik automatycznie udostępnia bramę płaszczyzny danych i klaster lakehouse w Twojej VPC.
Nawiązanie komunikacji — brama płaszczyzny danych bezpiecznie nawiązuje komunikację z Qlik Talend Cloud.
Wdrożenie bramy — wdróż bramę Data Movement Gateway (CDC) lokalnie lub w środowisku chmury, w tym w VPC płaszczyzny danych.
Gotowość do działania — po zakończeniu konfiguracji możesz tworzyć projekty i zadania Qlik Open Lakehouse oraz zarządzać nimi zgodnie z ich uprawnieniami dostępu.

Tworzenie projektu Qlik Open Lakehouse

Dostępne są następujące typy zadań:

Zadanie umieszczania danych

Konfiguracja źródła — brama ruchu danych jest skonfigurowana do przechwytywania zmian z systemów źródłowych, w tym RDBMS, SAP, komputerów typu mainframe i innych.
Umieszczanie danych — zadanie CDC w sposób ciągły wysyła surowe dane zmian do wyznaczonego zasobnika umieszczania S3 na Twoim koncie AWS.

Zadanie przechowywania danych

Zarejestruj połączenie z katalogiem Iceberg, na przykład AWS Glue Data Catalog.
Zdefiniuj zadanie przechowywania w Qlik Talend Cloud.
Qlik Talend Cloud wysyła definicje zadań do bramy płaszczyzny danych.
Brama płaszczyzny danych bezpiecznie przekazuje instrukcje zadania do klastra lakehouse Qlik.
Klaster w sposób ciągły odczytuje surowe dane z zasobnika umieszczania w S3, przetwarza je i zapisuje dane wyjściowe w tabelach Iceberg w S3.
Klaster lakehouse automatycznie skaluje się w górę lub w dół w zależności od obciążenia, zgodnie z predefiniowanymi preferencjami w ustawieniach klastra lakehouse.
Dane monitorowania są wysyłane do Qlik Talend Cloud, a dzienniki i metryki są przekazywane do Qlik.

Zadanie dublowania danych

Możesz tworzyć zewnętrzne tabele Iceberg, aby umożliwić wysyłanie zapytań do danych przechowywanych w jeziorze danych z hurtowni danych w chmurze bez ich powielania. Pozwala to na korzystanie z silnika analitycznego hurtowni danych na danych zarządzanych przez Iceberg, przechowywanych w formatach takich jak Parquet na S3. Odwoływanie się do tabel zewnętrznych zamiast powielania danych w hurtowni danych zmniejsza koszty przechowywania, utrzymuje jedno źródło prawdy i zapewnia spójność między środowiskami lakehouse i hurtowni.

Komunikacja między integracją sieciową a Qlik Talend Cloud

Integracja sieciowa nawiązuje wychodzące bezpieczne połączenie (HTTPS) z Qlik Talend Cloud. Po pomyślnym zaakceptowaniu połączenie jest konwertowane na bezpieczne gniazdo sieciowe (WSS). Dodatkowy, dedykowany kanał komunikacyjny (WSS) jest ustanawiany między integracją sieciową a Qlik Talend Cloud w celu odbierania poleceń i elementów sterujących zadań specyficznych dla architektury lakehouse. Okresowo integracja sieciowa nawiązuje bezpieczne połączenie (HTTPS) z Qlik Talend Cloud w celu odbierania i wysyłania zdarzeń związanych z danymi. Metryki i dzienniki są wysyłane do Qlik z klastrów lakehouse.

Podejmowane są następujące środki w celu zapewnienia bezpieczeństwa danych:

Wszystkie połączenia z integracji sieciowej do Qlik Talend Cloud są wychodzące. Dostęp przychodzący nie jest wymagany.
Metadane, polecenia i żądania sterujące są przesyłane za pomocą kanałów komunikacyjnych zabezpieczonych protokołem HTTPS, tworząc dodatkową warstwę szyfrowania między integracją sieciową a Qlik Talend Cloud.
Wszystkie dane przepływają między zasobami należącymi do Ciebie. Dane nigdy nie są wysyłane do Qlik Talend Cloud. Metadane, takie jak na przykład nazwy tabel i kolumn, są wysyłane do Qlik Talend Cloud w celu umożliwienia definicji zadań.
Dane są anonimizowane przed wysłaniem do Qlik. Qlik wykorzystuje zanonimizowane dane do proaktywnego wspierania użytkownika, jeśli dzienniki lub metryki wskazują na problem.

Architektura zestawu danych

Architektura zestawu danych w projekcie potoku Qlik Open Lakehouse jest określana przez źródło danych. Więcej informacji można znaleźć w następujących tematach:

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię