Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Mirroring danych do hurtowni danych w chmurze

Zadania lustrzane umożliwiają odpytywanie danych przechowywanych w Qlik Open Lakehouse z poziomu Snowflake. Dane są odzwierciedlane w Snowflake bez duplikowania. Tabele lustrzane zapewniają minimalne koszty przechowywania i inżynierii oraz pozwalają utrzymać jedno źródło informacji.

Po wprowadzeniu danych do Qlik Open Lakehouse można wykonać lustrzane odbicie danych w Snowflake przy użyciu tabel lustrzanych. Dane w Iceberg można przeszukiwać za pomocą silnika zapytań, który natywnie obsługuje Iceberg, takiego jak Amazon Athena. Tabele lustrzane są natomiast idealne, gdy chcesz wdrożyć otwartą architekturę Iceberg lakehouse, ale nadal chcesz używać Snowflake jako silnika zapytań. Zadanie mirroringu data automatyzuje proces udostępniania tabel Iceberg w Snowflake poprzez zadeklarowanie ich jako tabel zewnętrznych. Snowflake odnosi się do tabeli Iceberg jako tabeli zewnętrznej, ponieważ nie zarządza tabelą, a jedynie odczytuje z niej dane. Tabele zewnętrzne umożliwiają wysyłanie zapytań do danych znajdujących się w Iceberg w Snowflake bez migrowania danych lub zarządzania tabelami do Snowflake.

Aby utworzyć kopię lustrzaną danych, należy utworzyć wolumin zewnętrzny w Snowflake, który wskazuje na zasobnik S3, w którym znajdują się tabele Iceberg aktualizowane przez zadanie przechowywania. Następnie należy utworzyć integrację katalogu Snowflake, która wskazuje na katalog danych używany przez projekt Qlik Open Lakehouse, na przykład AWS Glue Data Catalog.

Zadanie lustrzane wykonuje niezbędne instrukcje DDL w celu utworzenia tabel zewnętrznych w Snowflake. Tabela (schemat) jest wyświetlana w Snowflake wraz z tabelami zmian i historii, ale jeśli spojrzeć na definicję tabeli, jest ona wyświetlana jako widok utworzony na zewnętrznej tabeli. Użytkownicy Snowflake mogą wysyłać zapytania do widoków tak, jakby dane były przechowywane w ich środowisku Snowflake. Dane lustrzane oferują wysoką wydajność, ponieważ Qlik nadal zarządza danymi i je optymalizuje.

Mechanizm odświeżania

Snowflake wskazuje na metadane, które odzwierciedlają najnowszą migawkę dostępnych danych w Iceberg. Istnieją dwa sposoby odświeżenia metadanych:

  1. Qlik-managed: ta opcja wymaga aktywnej hurtowni Snowflake i obejmuje monitorowanie oraz podgląd danych. Wybierz tę opcję, jeśli chcesz utworzyć transformacje podrzędne oraz monitorować i zaplanować zadanie. Qlik jest właścicielem operacji odświeżania metadanych, dzięki czemu można ją skonfigurować ręcznie, na przykład tak, aby była uruchamiana co 30 minut. Opcja ta jest szczególnie istotna w przypadku transformacji wielu tabel, ponieważ metadane dla wszystkich tabel są aktualizowane jednocześnie. Chociaż można stracić część korzyści w czasie rzeczywistym, które oferuje odświeżanie zarządzane przez Snowflake, zachowuje się spójność między tabelami. W przypadku transformacji wielu tabel można wyzwalać odświeżanie tak często, jak to konieczne. Qlik zaleca ustawienie wyzwalania opartego na zdarzeniach dla dalszych zadań transformacji, które następują po zaplanowanym zadaniu lustrzanym.

  2. Snowflake-managed: operacja bezserwerowa, która wykorzystuje infrastrukturę Snowpipe bez konieczności posiadania lub aktywowania magazynu obliczeniowego. Opcja ta jest zalecana, gdy nie są wymagane dalsze przekształcenia. Interwał odświeżania jest konfigurowany podczas tworzenia integracji katalogu Snowflake. Aby monitorować status automatycznego odświeżania, należy wysłać zapytanie do SYSTEM$AUTO_REFRESH_STATUS w Snowflake. Qlik traci własność procesu i nie jest w stanie monitorować zadań tego typu.

Każdemu zadaniu lustrzanemu w projekcie można skonfigurować własny mechanizm odświeżania: jeśli utworzysz dwa zadania lustrzane, jedno może korzystać z odświeżania zarządzanego przez Qlik, a drugie może korzystać z odświeżania zarządzanego przez Snowflake.

Ewolucja schematu

W przypadku ręcznego dodania lub usunięcia kolumn lub tabel z zadania przechowywania lub pośrednio z zadania umieszczania, zmiany są automatycznie odzwierciedlane w projekcie zadania lustrzanego. Musisz przygotować zadanie danych, aby zastosować zmiany w odzwierciedlonej tabeli. Jeśli ewolucja schematu jest włączona w ustawieniach serwera lustrzanego i zadań przechowywania, wszelkie zmiany schematu, które są automatycznie wykrywane w zadaniu przechowywania, są stosowane do tabel lustrzanych.

Wymagania wstępne

Zadanie mirroringu danych można dodać dopiero po utworzeniu zadania przechowywania w projekcie Qlik Open Lakehouse. Zadanie przechowywania może mieć wiele zadań mirroringu danych. Zadanie mirroringu danych może być powiązane z jednym zadaniem przechowywania.

Aby wykonać kopię lustrzaną danych w Snowflake, potrzebne są:

  • Połączenie z bazą danych Snowflake, w której chcesz wykonać kopię lustrzaną danych. Opcjonalnie można utworzyć nowe połączenie podczas tworzenia zadania lustrzanego. Wymagania można znaleźć w instrukcji połączenia z Snowflake.

  • Wolumin zewnętrzny Snowflake. Daje to Snowflake ograniczony dostęp do lokalizacji S3. Aby skonfigurować wolumin, zobacz Konfigurowanie woluminu zewnętrznego dla Amazon S3.

  • Integracja z katalogiem danych AWS Glue. Umożliwia to Snowflake połączenie z danymi przechowywanymi w formacie otwartej tabeli Iceberg w magazynie obiektów. Aby skonfigurować integrację katalogu, zobacz Konfigurowanie integracji katalogu dla AWS Glue.

Tworzenie zadania mirroringu danych

Aby wykonać kopię lustrzaną danych do Snowflake, wykonaj następujące czynności:

  1. Otwórz projekt, który zawiera zadanie przechowywania danych, które chcesz odzwierciedlić.

  2. Kliknij opcję Więcej czynności w zadaniu przechowywania. Wybierz opcję Mirroring danych i skonfiguruj ją:

    • Nazwa: wprowadź nazwę zadania lustrzanego.

    • Opis: opcjonalnie opisz cel zadania.

    • Połączenie

      • Aby użyć istniejącego połączenia, kliknij przycisk Wybierz w celu otwarcia okna dialogowego Bezpieczne połączenie źródłowe. Wybierz Przestrzeń, w której znajduje się połączenie, a następnie wybierz połączenie. Kliknij Edytuj, aby zmienić właściwości połączenia.

      • W celu utworzenia nowego połączenia, kliknij przycisk Utwórz połączenie, aby otworzyć okno dialogowe Utwórz połączenie i wykonuj instrukcje.

    • Baza danych: wprowadź nazwę bazy danych, w której chcesz wykonać kopię lustrzaną danych.

    • Wolumin zewnętrzny Snowflake: wprowadź nazwę woluminu zewnętrznego utworzonego w Snowflake.

    • Integracja katalogu Snowflake: wprowadź nazwę integracji katalogu utworzonej w Snowflake.

  3. Wybierz sposób odświeżania danych w Snowflake:

    • Zarządzane przez Qlik: wybierz tę opcję, jeśli chcesz tworzyć przekształcenia niższego szczebla. Wymaga to aktywnego magazynu Snowflake i jest monitorowane przez Qlik.

    • Zarządzane przez Snowflake: wybierz tę opcję, jeśli nie chcesz tworzyć przekształceń niższego szczebla. Hurtowania Snowflake nie jest wymagana i dlatego nie jest monitorowana przez Qlik. Jest zarządzana i monitorowana w Snowflake.

  4. Utwórz zadanie lustrzane, aby dodać je do zadania przechowywania w potoku.

  5. Kliknij Więcej czynności na zadaniu lustrzanym i wybierz Otwórz. Upewnij się, że wyświetlany jest widok Projektowanie.

  6. Aby wybrać podzbiór dostępnych zestawów danych, kliknij Wybierz źródło danych i usuń niechciane zestawy danych.

  7. Kliknij przycisk Przygotuj, aby utworzyć zewnętrzną tabelę w Snowflake i wykonać kopię lustrzaną danych.

Wykonywanie transformacji

Jeśli konieczne jest przekształcenie danych, można utworzyć projekt Snowflake i użyć zadania mirroringu danych w projekcie Qlik Open Lakehouse jako źródła. Aby utworzyć zadanie transformacji przy użyciu danych z istniejącego projektu, zobacz Tworzenie potoków międzyprojektowych.

Tworzenie zadania mirroringu danych

Po usunięciu zadania mirroringu zewnętrzne tabele i widoki są usuwane ze Snowflake i nie są już dostępne dla zapytań. Zadanie przechowywania nie może zostać usunięte, gdy zadanie mirroringu odczytuje z niego dane.

Aby usunąć zadanie mirroringu danych, wykonaj następujące czynności:

  1. Na zadaniu mirroringu danych, które chcesz usunąć, kliknij menu Więcej czynności i wybierz pozycję Usuń.

  2. W oknie dialogowym potwierdzenia kliknij Usuń.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!