Umieszczanie danych w Qlik Open Lakehouse
Dane umieszczane są w Amazon S3, gotowe do zadania przechowywania danych w celu przekonwertowania ich na otwarty format tabeli Iceberg. Umieszczać można dane ze źródeł danych obsługiwanych przez Qlik.
Umieszczanie danych w Qlik Open Lakehouse wymaga wstępnie skonfigurowanego zasobnika Amazon S3. Qlik Open Lakehouse jest w szczególności zoptymalizowany pod kątem wysokonakładowych, strumieniowych źródeł danych i jest kompatybilny ze wszystkimi źródłami danych obsługiwanymi przez Qlik. Umieszczanie danych w formacie CSV w S3. Zadanie przechowywania danych konwertuje dane do formatu Iceberg i kopiuje je do plików Parquet. Specyfikacja Iceberg umożliwia odpytywanie danych z dowolnego silnika, który natywnie obsługuje Trino SQL, na przykład Amazon Athena, Ahana lub Starburst Enterprise. Opcjonalnie można tworzyć lustrzane odbicie tabel do Snowflake, gdzie mogą być odpytywane bez duplikowania danych.
Umieszczanie danych w Qlik Open Lakehouse jest dostępne w projektach z docelowym połączeniem AWS Glue Data Catalog.
Przygotowania
-
Aby wykonać odbicie lustrzane danych w Snowflake, należy najpierw utworzyć projekt Qlik Open Lakehouse w celu pozyskania danych i przechowywania ich przy użyciu otwartego formatu tabeli Iceberg. Zadanie utworzenia lustrzanego odbicia danych można dodać po zadaniu przechowywania danych. Aby wykonać transformacje danych, należy utworzyć projekt Snowflake, który używa projektu Qlik Open Lakehouse jako źródła. Więcej informacji zawiera temat Mirroring danych do hurtowni danych w chmurze.
-
Chociaż można skonfigurować ustawienia połączenia źródła i miejsca docelowego w kreatorze konfiguracji zadania, aby uprościć procedurę konfiguracji, zaleca się wykonanie tej czynności przed utworzeniem zadania.
Tworzenie zadania umieszczania w jeziorze danych
Aby utworzyć zadanie umieszczania w jeziorze, wykonaj następujące czynności:
-
Utwórz projekt i wybierz opcję Potok danych w obszarze Zastosowanie.
-
Wybierz Qlik Open Lakehouse w Platforma danych i nawiąż połączenie z katalogiem danych.
-
Skonfiguruj obszar przechowywania w Połączeniu z celem umieszczania.
-
Kliknij przycisk Utwórz, aby utworzyć projekt.
Podczas dołączania danych lub tworzenia zadania umieszczania w projekcie, zamiast zadania Umieszczania jest tworzone zadanie Umieszczanie w jeziorze danych. Zadania Umieszczanie w jeziorze danych działają i zachowują się przeważnie jak zadania Umieszczanie, z takim wyjątkiem, że umieszczają dane w pamięci masowej w chmurze. Więcej informacji zawiera temat Umieszczanie danych ze źródeł danych.
Wszystkie pliki są umieszczane w formacie CSV. Po aktualizacji umieszczonych danych zadanie przechowywania, które wykorzystuje zadanie umieszczania, aktualizuje tabele zewnętrzne.
Ustawienia
Więcej informacji o ustawieniach zadania zawiera temat Ustawienia umieszczania w jeziorze danych.
Ograniczenia
-
Umieszczane dane nie są partycjonowane w zasobniku ze względu na zadanie przechowywania uruchamiane co minutę. Dlatego częstotliwość partycji danych nie może być aktualizowana w ustawieniach zadania.
-
Mimo że umieszczanie danych ze źródeł SaaS jest zaplanowane, zadanie przechowywania uruchamia partie mini co minutę. Wymaga to aktywnego klastra lakehouse przy minimalnych kosztach.
-
Jeśli wartość klucza głównego ulegnie zmianie, rekordy z oryginalnym kluczem zostaną oznaczone jako usunięte, a wiersz zawierający zmienioną wartość klucza zostanie oznaczony jako wstawiony.