Przechowywanie strumieniowych zestawów danych
Następujące ustawienia zadania transformacji strumieniowej mają zastosowanie do projektów Qlik Open Lakehouse korzystających ze źródła strumieniowego.
Możesz przechowywać i transformować dane strumieniowe za pomocą zadania strumieniowej transformacji danych (Streaming Transform data). Dane strumieniowe często zawierają zagnieżdżone struktury i tablice, które wymagają spłaszczenia, a możliwości transformacji są potrzebne na etapie przechowywania. Te możliwości są dostępne dla zadania transformacji strumieniowej, umożliwiając zastosowanie transformacji natychmiast po umieszczaniu danych strumieniowych.
Zarządzanie szczegółowością zestawu danych
Możesz spłaszczyć zagnieżdżone struktury i tablice, aby zwiększyć szczegółowość. Szczegółowość jest wyświetlana w widoku zestawu danych. Kliknij , aby edytować szczegółowość:
-
Wybranie pola z tablicy spowoduje, że tabela docelowa będzie zawierać jeden wiersz na element. Zwiększy to liczbę wierszy w obiekcie docelowym.
-
Musisz wybrać pola z tej samej ścieżki tablicy. Wybranie pól z różnych ścieżek spowoduje błąd walidacji.
-
Wyświetlane typy danych odzwierciedlają wybraną szczegółowość. Na przykład ARRAY<INT> staje się INT po spłaszczeniu. Więcej informacji zawiera sekcja Mapowania typów danych.
Usuwanie zadania
Możesz usunąć zadanie danych, jeśli nie jest uruchomione i nie ma zależności od zadań podrzędnych w tym samym projekcie.
-
W widoku Projekt potoku projektu kliknij
na zadaniu i wybierz Usuń.
Artefakty (tabele i widoki) utworzone przez zadanie również zostaną usunięte, chyba że zdecydujesz się je zachować.
Wyświetlanie informacji o zadaniu
Kliknij na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:
-
Właściciel
-
Przestrzeń
-
Platforma danych
-
Identyfikator projektu
-
Identyfikator czasu wykonania zadania danych
Ustawienia transformacji strumieniowej
Możesz ustawić właściwości dla zadania strumieniowej transformacji danych, gdy platformą danych jest Qlik Open Lakehouse.
-
Kliknij Ustawienia.
Ustawienia ogólne
-
Schemat zadania
Możesz zmienić nazwę schematu zadania transformacji strumieniowej. Domyślna nazwa to nazwa zadania przechowywania.
-
Schemat wewnętrzny
Możesz zmienić nazwę wewnętrznego schematu zasobu danych przechowywania. Domyślna nazwa to nazwa zadania przechowywania z dołączonym sufiksem _internal.
- Sufiks dla wszystkich tabel i widoków
Możesz ustawić prefiks dla wszystkich tabel i widoków utworzonych za pomocą tego zadania.
InformacjaJeśli chcesz użyć schematu bazy danych w kilku zadaniach danych, musisz użyć unikatowego prefiksu. -
Folder do użycia
Możesz zmienić folder przechowywania zadania transformacji strumieniowej.
-
Ustawienia ładowania dla nowych zestawów danych
-
Tylko dołączaj
Dodaje nowe rekordy bez modyfikowania istniejących danych. Ograniczenia klucza nie są egzekwowane w przypadku pojawienia się zduplikowanych rekordów.
-
Zastosuj zmiany
Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól klucza.
Jeśli wybierzesz scalanie zmian, możesz również wybrać następujące opcje:
-
Miękkie usuwanie rekordów przez podanie wyrażenia usuwania
Zdefiniuj wyrażenie usuwania, aby oznaczyć rekordy do usunięcia.
-
Zachowaj rekordy historyczne (Typ 2)
Zachowaj poprzednie wersje zmienionych rekordów.
-
-
-
Odgnieżdżanie kolumn
-
Zachowaj zagnieżdżone kolumny
Wybierz, aby zachować zagnieżdżone dane.
-
Odgnieźdź do oddzielnych kolumn
Domyślnym zachowaniem jest odgnieżdżanie danych do oddzielnych kolumn.
-
-
Partycja tabel docelowych
InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Tylko dołączaj.-
Brak partycji
Nowe tabele są tworzone bez partycji.
-
Partycjonuj według daty zdarzenia
Nowe tabele są partycjonowane według daty pozyskania zdarzeń.
-
-
Obsługa zmian danych
InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Zastosuj zmiany.-
Uwzględnij miękkie usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia.
-
Utwórz magazyn danych historycznych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.
-
- Zarządzanie retencją
-
Brak przycinania partycji
-
Przycinanie partycji bieżącej migawki
-
Definicje tabel
-
hdr__from_timestamp
Gdy ta opcja jest włączona, kolumna nagłówka hdr__from_timestamp pojawi się w widokach standardowych. Ponadto, gdy w kreatorze wdrażania zostanie wybrana opcja Partycjonuj według daty pozyskania zdarzenia, hdr__from_timestamp zostanie użyta jako domyślna kolumna partycji.
InformacjaWidoki historii zawsze uwzględniają wszystkie kolumny nagłówka widoku standardowego, niezależnie od tego ustawienia.
Ustawienia środowiska uruchomieniowego
-
Klaster Lakehouse
Możesz zmienić klaster lakehouse, ale musi on obsługiwać obciążenia strumieniowe lub obciążenia mieszane.
Ustawienia ewolucji schematu
-
Dodaj kolumny na poziomie głównym
To ustawienie ma zastosowanie, gdy nowe kolumny są dodawane do zadania umieszczania strumieniowego na poziomie głównym.
-
Zastosuj do celu
Automatycznie dodaje nowe kolumny poziomu głównego z zadania umieszczania strumieniowego do zadania transformacji strumieniowej. Jest to ustawienie domyślne.
-
Ignoruj
Nie dodaje nowych kolumn na poziomie głównym.
-
Zatrzymaj zadanie
Zatrzymuje zadanie transformacji, jeśli w zadaniu umieszczania strumieniowego zostanie wykryta nowa kolumna na poziomie głównym.
-
-
Dodaj kolumny do struktur
To ustawienie ma zastosowanie, gdy nowe pola są dodawane wewnątrz istniejącej zagnieżdżonej struktury w zadaniu umieszczania strumieniowego.
- Zastosuj do celu
Automatycznie dodaje nowe pola do istniejących struktur w zadaniu transformacji strumieniowej, jeśli zostaną one dodane do struktury umieszczania.
-
Ignoruj
Nie dodaje nowych pól do istniejących struktur.
-
Zatrzymaj zadanie
Zatrzymuje zadanie transformacji, jeśli nowe pole zostanie dodane do struktury w zadaniu umieszczania strumieniowego.
- Zastosuj do celu
-
Zmień typ danych pola
- Ignoruj
Nie zmienia typu danych.
-
Zatrzymaj zadanie
Zatrzymuje zadanie transformacji, jeśli w zadaniu umieszczania strumieniowego zostanie wykryta zmiana typu danych.
- Ignoruj
Ustawienia zestawu danych
Następujące ustawienia są dostępne dla wszystkich zestawów danych w widoku Projektowanie > Zestawy danych.
Kliknij obok zestawu danych i wybierz Ustawienia.
-
Obsługa ładowania danych
Wybiera sposób ładowania danych do tabeli docelowej.
-
Tylko dołączaj
Dodaje nowe rekordy bez modyfikowania istniejących danych. Ograniczenia klucza nie są egzekwowane w przypadku pojawienia się zduplikowanych rekordów.
-
Zastosuj zmiany
Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól klucza.
-
-
Obsługa zmian danych
InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Zastosuj zmiany.-
Uwzględnij miękkie usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia. Powinno to być wyrażenie, które przyjmuje wartość True, jeśli zmiana jest miękkim usunięciem.
Przykład: operation = 'D'
-
Utwórz magazyn danych historycznych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.
-
-
Kolumny partycji
Opcjonalnie możesz wybrać kolumny partycji, aby zoptymalizować wydajność.
Kliknij Dodaj kolumnę, aby dodać kolumnę partycji, a następnie wybierz Transformację i ustaw Parametr, jeśli to konieczne.
-
Zarządzanie retencją
Przycinanie partycji usuwa partycje, które są starsze niż okres retencji. Nie powoduje to fizycznego usunięcia danych i nie wpływa natychmiast na starsze migawki. Starsze dane mogą być dostępne w starszych migawkach, dopóki nie wygasną.
InformacjaPojawia się tylko wtedy, gdy partycja ma co najmniej jedną kolumnę daty lub daty i godziny.-
Brak przycinania partycji
-
Przycinanie partycji bieżącej migawki
-
-
Sortuj kolumny
InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Tylko dołączaj.Opcjonalnie możesz określić kolumny, według których dane będą sortowane w każdym pliku tabeli Iceberg. Podczas pozyskiwania danych Iceberg używa tych kolumn do porządkowania rekordów. Zdefiniowanie kluczy sortowania w kolumnach często używanych w zapytaniach poprawia lokalność danych, co skutkuje szybszą wydajnością odczytu i bardziej wydajną kompresją. Odpowiednio skonfigurowane klucze sortowania zapewniają optymalną organizację danych pod kątem wydajności zapytań.
Kliknij Dodaj kolumnę, aby dodać kolumnę sortowania, a następnie ustaw porządek sortowania.
-
Czas wygasania migawki
To ustawienie kontroluje, jak długo przechowywane są migawki, co znacząco wpływa na rozmiar tabeli i koszty przechowywania. W przypadku często aktualizowanych tabel zaleca się krótszy czas trwania, aby pomóc obniżyć koszty przechowywania.
InformacjaWprowadź 0, aby wyłączyć wygasanie migawek. -
Standardowe nagłówki widoku
-
Dziedzicz z ustawień zadania danych
Jest to ustawienie domyślne. Wyłącz, jeśli chcesz ustawić określone kolumny nagłówka tylko dla tego zestawu danych.
-
hdr__from_timestamp
Gdy ta opcja jest włączona, kolumna nagłówka hdr__from_timestamp pojawi się w widokach standardowych. Ponadto, gdy w kreatorze wdrażania zostanie wybrana opcja Partycjonuj według daty pozyskania zdarzenia, hdr__from_timestamp zostanie użyta jako domyślna kolumna partycji.
InformacjaWidoki historii zawsze uwzględniają wszystkie kolumny nagłówka widoku standardowego, niezależnie od tego ustawienia.
-