Umieszczanie strumieniowych danych w Qlik Open Lakehouse
Możesz umieścić dane ze źródła strumieniowego w Amazon S3, gotowe do zadania przekształcania strumieniowego, aby przekonwertować je na otwarty format tabeli Iceberg.
Umieszczanie strumieniowych danych w Qlik Open Lakehouse wymaga wstępnie skonfigurowanego zasobnika Amazon S3. Qlik Open Lakehouse jest specjalnie zoptymalizowany pod kątem wysokonakładowych źródeł danych i jest zgodny ze wszystkimi strumieniowymi źródłami danych obsługiwanymi przez Qlik. Więcej informacji na temat obsługiwanych źródeł strumieniowych można znaleźć w Łączenie ze strumieniami danych.
Surowe dane trafiają w formacie Avro do S3, a zadanie Streaming Transform konwertuje dane do formatu Iceberg. Specyfikacja Iceberg umożliwia odpytywanie danych z dowolnego silnika, który natywnie obsługuje Trino SQL, na przykład Amazon Athena, Ahana lub Starburst Enterprise. Opcjonalnie, tabele mogą być tworzone lustrzane odbicie do hurtowni danych w chmurze, gdzie mogą być odpytywane bez duplikowania danych.
Przygotowania
-
Upewnij się, że skonfigurowano Qlik Open Lakehouse. Obejmuje to tworzenie integracji sieciowej, klastra lakehouse oraz połączeń źródłowych i docelowych. Więcej informacji zawiera temat Konfigurowanie Qlik Open Lakehouse.
-
Aby wykonać odbicie lustrzane danych w hurtowni danych w chmurze, należy najpierw utworzyć projekt Qlik Open Lakehouse w celu pozyskania danych i przechowywania ich przy użyciu otwartego formatu tabeli Iceberg. Zadanie utworzenia lustrzanego odbicia danych można dodać po zadaniu transformacji strumieniowej. Więcej informacji zawiera temat Mirroring danych do hurtowni danych w chmurze.
Tworzenie zadania umieszczania strumieniowego
Aby utworzyć zadanie umieszczania strumieniowego, wykonaj następujące czynności, aby najpierw utworzyć projekt:
-
Utwórz projekt i wybierz opcję Potok danych w obszarze Zastosowanie.
-
Wybierz Qlik Open Lakehouse w Platforma danych i nawiąż połączenie z katalogiem danych.
-
Skonfiguruj obszar przechowywania w Połączeniu z celem umieszczania.
-
Kliknij przycisk Utwórz, aby utworzyć projekt.
Podczas dołączania danych lub tworzenia zadania umieszczania w projekcie, zamiast zadania Umieszczania jest tworzone zadanie Umieszczanie strumieniowe. Zadania umieszczania strumieniowego działają i zachowują się podobnie do zadania Umieszczania, z tą różnicą, że umieszczają dane w pamięci masowej w chmurze ze źródeł strumieniowych. Więcej informacji zawiera temat Łączenie ze strumieniami danych.
Wszystkie pliki są umieszczane w formacie Avro. Po aktualizacji umieszczonych danych zadanie Przekształcania strumieniowego wykorzystuje umieszczone dane i aktualizuje tabele zewnętrzne.
Wyświetlanie informacji o zadaniu
Kliknij na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:
-
Właściciel
-
Przestrzeń
-
Platforma danych
-
Identyfikator projektu
-
Identyfikator czasu wykonania zadania danych
Operacje
Następujące operacje są dostępne w zadaniu umieszczania strumieniowego:
-
Usuwanie kolumny
Wybierz kolumnę i kliknij Usuń.
Spowoduje to dodanie reguły transformacji, która usuwa kolumnę z nowo załadowanych danych po przygotowaniu i uruchomieniu zadania. Możesz przywrócić kolumnę dla nowych rekordów, usuwając regułę transformacji.
-
Haszowanie kolumny, na przykład w celu maskowania poufnych informacji.
Wybierz Hash w kolumnie.
Spowoduje to wygenerowanie skrótu SHA-256 kolumny wejściowej po jej połączeniu z ciągiem soli Hash. Ciąg soli Hash to ustawienie projektu, dostępne w projektach Qlik Open Lakehouse.
Typ danych zmienia się na String, gdy kolumna jest haszowana. Jeśli chcesz zachować również dane niehaszowane dla uprzywilejowanych użytkowników, wykonaj haszowanie później w zadaniu Transform.
-
Filtrowanie danych
Więcej informacji zawiera temat Filtrowanie zestawów danych.
-
Zmiana nazwy zestawu danych
Kliknij
na zestawie danych i wybierz Zmień nazwę.
Ustawienia
Więcej informacji o ustawieniach zadania zawiera temat Ustawienia strumieniowego umieszczania w jeziorze danych.