Umieszczanie danych strumieniowych w Qlik Open Lakehouse
Możesz umieszczać dane ze źródła strumieniowego w Amazon S3, gotowe do przekonwertowania ich na otwarty format tabeli Iceberg przez zadanie Streaming Transform (Przekształcanie strumieniowe).
Umieszczanie danych strumieniowych w Qlik Open Lakehouse wymaga wstępnie skonfigurowanego zasobnika Amazon S3. Qlik Open Lakehouse jest specjalnie zoptymalizowany pod kątem źródeł danych o dużej objętości i kompatybilny ze wszystkimi obsługiwanymi przez Qlik strumieniowymi źródłami danych. Aby uzyskać więcej informacji na temat obsługiwanych źródeł strumieniowych, zobacz Łączenie ze strumieniami danych.
Surowe dane są umieszczane w formacie Avro w S3, a zadanie Streaming Transform konwertuje dane do formatu Iceberg. Specyfikacja Iceberg umożliwia wysyłanie zapytań do danych z dowolnego silnika, który natywnie obsługuje Trino SQL, na przykład Amazon Athena, Ahana lub Starburst Enterprise. Opcjonalnie tabele mogą być dublowane do hurtowni danych w chmurze, gdzie można wysyłać do nich zapytania bez duplikowania danych.
Przygotowania
-
Upewnij się, że skonfigurowano Qlik Open Lakehouse. Obejmuje to utworzenie integracji sieciowej, klastra lakehouse oraz połączeń źródłowych i docelowych. Aby uzyskać więcej informacji, zobacz Konfigurowanie Qlik Open Lakehouse.
-
Aby dublować dane do hurtowni danych w chmurze, musisz najpierw utworzyć projekt Qlik Open Lakehouse, aby pozyskać dane i przechowywać je przy użyciu otwartego formatu tabeli Iceberg. Możesz dodać zadanie Mirror data (Dublowanie danych) po zadaniu Streaming Transformation (Przekształcanie strumieniowe). Aby uzyskać więcej informacji, zobacz Odzwierciedlanie danych w hurtowni danych w chmurze.
Tworzenie zadania umieszczania strumieniowego
Aby utworzyć zadanie umieszczania strumieniowego, wykonaj następujące czynności, aby najpierw utworzyć projekt:
-
Utwórz projekt i wybierz Potok danych w Przypadek użycia.
-
Wybierz Qlik Open Lakehouse w Platforma danych i nawiąż połączenie z katalogiem danych.
-
Skonfiguruj obszar przechowywania w Połączenie docelowe umieszczania.
-
Kliknij Utwórz, aby utworzyć projekt.
Gdy wdrażasz dane lub tworzysz zadanie umieszczania w projekcie, tworzone jest Zadanie umieszczania strumieniowego zamiast zadania Umieszczanie. Zadania umieszczania strumieniowego działają i zachowują się podobnie do zadania Umieszczanie, z tą różnicą, że umieszczają dane w pamięci masowej w chmurze ze źródeł strumieniowych. Aby uzyskać więcej informacji, zobacz Łączenie ze strumieniami danych.
Wszystkie pliki są umieszczane w formacie Avro. Po zaktualizowaniu danych umieszczania Zadanie przekształcania strumieniowego wykorzystuje dane umieszczania i aktualizuje tabele zewnętrzne.
Wyświetlanie informacji o zadaniu
Kliknij na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:
-
Właściciel
-
Przestrzeń
-
Platforma danych
-
Identyfikator projektu
-
Identyfikator czasu wykonania zadania danych
Operacje
W zadaniu umieszczania strumieniowego dostępne są następujące operacje:
-
Upuszczanie kolumny
Wybierz kolumnę i kliknij Usuń.
Spowoduje to dodanie reguły przekształcania, która usuwa kolumnę z nowo załadowanych danych po przygotowaniu i uruchomieniu zadania. Możesz przywrócić kolumnę dla nowych rekordów, usuwając regułę przekształcania.
-
Haszowanie kolumny, na przykład w celu zamaskowania poufnych informacji.
Wybierz Haszuj w kolumnie.
Spowoduje to wygenerowanie skrótu SHA-256 kolumny wejściowej po połączeniu jej z ciągiem soli haszującej. Ciąg soli haszującej ustawia się w ustawieniach projektu w sekcji Metadane > Haszuj. To ustawienie jest dostępne tylko w projektach Qlik Open Lakehouse. Aby uzyskać więcej informacji, zobacz Metadane
Typ danych zmienia się na Ciąg znaków (String), gdy kolumna jest haszowana. Jeśli chcesz zachować również niehaszowane dane dla uprzywilejowanych użytkowników, wykonaj haszowanie później w zadaniu Transform (Przekształcanie).
-
Filtrowanie danych
Aby uzyskać więcej informacji, zobacz Filtrowanie zestawów danych.
-
Zmiana nazwy zestawu danych
Kliknij
na zestawie danych i wybierz Zmień nazwę.
Usuwanie zadania
Możesz usunąć zadanie danych, jeśli nie jest uruchomione i nie ma zależności od zadań podrzędnych w tym samym projekcie.
-
W widoku Projekt potoku projektu kliknij
na zadaniu i wybierz Usuń.
Artefakty (tabele i widoki) utworzone przez zadanie również zostaną usunięte, chyba że zdecydujesz się je zachować.
Ustawienia
Aby uzyskać więcej informacji o ustawieniach zadania, zobacz Ustawienia strumieniowego umieszczania w jeziorze danych