Umieszczanie strumieniowych danych w Qlik Open Lakehouse
Dane umieszczane są w Amazon S3, gotowe do zadania przekształcania strumieniowego w celu przekonwertowania ich na otwarty format tabeli Iceberg. Umieszczać można dane z dowolnego strumieniowego źródła obsługiwanego przez Qlik.
Umieszczanie strumieniowych danych w Qlik Open Lakehouse wymaga wstępnie skonfigurowanego zasobnika Amazon S3. Qlik Open Lakehouse jest w szczególności zoptymalizowany pod kątem wysokonakładowych źródeł danych i jest kompatybilny ze wszystkimi strumieniowymi źródłami danych obsługiwanymi przez Qlik. Więcej informacji na temat obsługiwanych źródeł strumieniowych można znaleźć w sekcji Łączenie ze strumieniami danych.
Surowe dane trafiają w formacie Avro do S3, a zadanie Streaming Transform konwertuje dane do formatu Iceberg. Specyfikacja Iceberg umożliwia odpytywanie danych z dowolnego silnika, który natywnie obsługuje Trino SQL, na przykład Amazon Athena, Ahana lub Starburst Enterprise. Opcjonalnie, tabele mogą być tworzone lustrzane odbicie do hurtowni danych w chmurze, gdzie mogą być odpytywane bez duplikowania danych.
Umieszczanie danych w Qlik Open Lakehouse jest dostępne w projektach z docelowym połączeniem AWS Glue Data Catalog.
Przygotowania
-
Klaster lakehouse do przechowywania danych jest wymagany do uruchomienia pozyskiwania i musi być skonfigurowany przed utworzeniem projektu.
-
Chociaż można skonfigurować ustawienia połączenia źródła i miejsca docelowego w kreatorze konfiguracji, aby uprościć procedurę konfiguracji, zaleca się wykonanie tej czynności przed utworzeniem zadania.
-
Aby wykonać odbicie lustrzane danych w hurtowni danych w chmurze, należy najpierw utworzyć projekt Qlik Open Lakehouse w celu pozyskania danych i przechowywania ich przy użyciu otwartego formatu tabeli Iceberg. Zadanie utworzenia lustrzanego odbicia danych można dodać po zadaniu transformacji strumieniowej. Więcej informacji zawiera temat Mirroring danych do hurtowni danych w chmurze.
Tworzenie zadania umieszczania strumieniowego
Aby utworzyć zadanie umieszczania strumieniowego, wykonaj następujące czynności, aby najpierw utworzyć projekt:
-
Utwórz projekt i wybierz opcję Potok danych w obszarze Zastosowanie.
-
Wybierz Qlik Open Lakehouse w Platforma danych i nawiąż połączenie z katalogiem danych.
-
Skonfiguruj obszar przechowywania w Połączeniu z celem umieszczania.
-
Wybierz klaster lakehouse Storage w celu pozyskiwania i optymalizacji danych.
-
Kliknij przycisk Utwórz, aby utworzyć projekt.
Podczas dołączania danych lub tworzenia zadania umieszczania w projekcie, zamiast zadania Umieszczania jest tworzone zadanie Umieszczanie strumieniowe. Zadania umieszczania strumieniowego działają i zachowują się podobnie do zadania Umieszczania, z tą różnicą, że umieszczają dane w pamięci masowej w chmurze ze źródeł strumieniowych. Więcej informacji zawiera temat Łączenie ze strumieniami danych.
Wszystkie pliki są umieszczane w formacie Avro. Po aktualizacji umieszczonych danych zadanie Przekształcania strumieniowego wykorzystuje umieszczone dane i aktualizuje tabele zewnętrzne.
Ustawienia
Więcej informacji o ustawieniach zadania zawiera temat Ustawienia strumieniowego umieszczania w jeziorze danych.