Umieszczanie danych w Qlik Open Lakehouse
Dane umieszczane są w Amazon S3, gotowe do zadania przechowywania danych w celu przekonwertowania ich na otwarty format tabeli Iceberg. Umieszczać można dane ze źródeł danych obsługiwanych przez Qlik.
Umieszczanie danych w Qlik Open Lakehouse wymaga wstępnie skonfigurowanego zasobnika Amazon S3. Qlik Open Lakehouse jest w szczególności zoptymalizowany pod kątem wysokonakładowych, strumieniowych źródeł danych i jest kompatybilny ze wszystkimi źródłami danych obsługiwanymi przez Qlik. Umieszczanie danych w formacie CSV w S3. Zadanie przechowywania danych konwertuje dane do formatu Iceberg i kopiuje je do plików Parquet. Specyfikacja Iceberg umożliwia odpytywanie danych z dowolnego silnika, który natywnie obsługuje Trino SQL, na przykład Amazon Athena, Ahana lub Starburst Enterprise. Opcjonalnie, tabele mogą być tworzone lustrzane odbicie do Redshift lub Snowflake, gdzie mogą być odpytywane bez duplikowania danych.
Umieszczanie danych w Qlik Open Lakehouse jest dostępne w projektach z docelowym połączeniem AWS Glue Data Catalog.
Przygotowania
-
Aby utworzyć lustrzane odbicie danych do Redshift lub Snowflake, należy najpierw utworzyć projekt Qlik Open Lakehouse w celu pozyskania danych i przechowywania ich przy użyciu otwartego formatu tabeli Iceberg. Zadanie utworzenia lustrzanego odbicia danych można dodać po zadaniu przechowywania danych. Aby wykonać transformacje danych, należy utworzyć projekt Redshift lub Snowflake, który używa projektu Qlik Open Lakehouse jako źródła. Więcej informacji zawiera temat Mirroring danych do hurtowni danych w chmurze.
-
Chociaż można skonfigurować ustawienia połączenia źródła i miejsca docelowego w kreatorze konfiguracji zadania, aby uprościć procedurę konfiguracji, zaleca się wykonanie tej czynności przed utworzeniem zadania.
Tworzenie zadania umieszczania w jeziorze danych
Aby utworzyć zadanie umieszczania w jeziorze, wykonaj następujące czynności:
-
Utwórz projekt i wybierz opcję Potok danych w obszarze Zastosowanie.
-
Wybierz Qlik Open Lakehouse w Platforma danych i nawiąż połączenie z katalogiem danych.
-
Skonfiguruj obszar przechowywania w Połączeniu z celem umieszczania.
-
Kliknij przycisk Utwórz, aby utworzyć projekt.
Podczas dołączania danych lub tworzenia zadania umieszczania w projekcie, zamiast zadania Umieszczania jest tworzone zadanie Umieszczanie w jeziorze danych. Zadania Umieszczanie w jeziorze danych działają i zachowują się przeważnie jak zadania Umieszczanie, z takim wyjątkiem, że umieszczają dane w pamięci masowej w chmurze. Więcej informacji zawiera temat Umieszczanie danych ze źródeł danych.
Wszystkie pliki są umieszczane w formacie CSV. Po aktualizacji umieszczonych danych zadanie przechowywania, które wykorzystuje zadanie umieszczania, aktualizuje tabele zewnętrzne.
Ustawienia
Więcej informacji o ustawieniach zadania zawiera temat Ustawienia umieszczania w jeziorze danych.
Ograniczenia
-
Umieszczane dane nie są partycjonowane w zasobniku ze względu na zadanie przechowywania uruchamiane co minutę. Dlatego częstotliwość partycji danych nie może być aktualizowana w ustawieniach zadania.
-
Mimo że umieszczanie danych ze źródeł SaaS jest zaplanowane, zadanie przechowywania uruchamia partie mini co minutę. Wymaga to aktywnego klastra lakehouse przy minimalnych kosztach.
-
Jeśli wartość klucza głównego ulegnie zmianie, rekordy z oryginalnym kluczem zostaną oznaczone jako usunięte, a wiersz zawierający zmienioną wartość klucza zostanie oznaczony jako wstawiony.