Przechowywanie strumieniowych zestawów danych

Następujące ustawienia zadania transformacji strumieniowej mają zastosowanie do projektów Qlik Open Lakehouse korzystających ze źródła strumieniowego.

Możesz przechowywać i transformować dane strumieniowe za pomocą zadania Transformacja danych strumieniowych. Dane strumieniowe często zawierają zagnieżdżone struktury i tablice, które wymagają spłaszczenia, a możliwości transformacji są potrzebne na etapie przechowywania. Te możliwości są dostępne dla zadania transformacji strumieniowej, umożliwiając zastosowanie transformacji natychmiast po umieszczeniu danych strumieniowych.

Zarządzanie szczegółowością zestawu danych

Możesz spłaszczyć zagnieżdżone struktury i tablice, aby zwiększyć szczegółowość. Szczegółowość jest wyświetlana w widoku zestawu danych. Kliknij edytuj , aby edytować szczegółowość:

Wybranie pola z tablicy spowoduje, że tabela docelowa będzie zawierać jeden wiersz na element. Zwiększy to liczbę wierszy w obiekcie docelowym.
Musisz wybrać pola z tej samej ścieżki tablicy. Wybranie pól z różnych ścieżek spowoduje błąd walidacji.
Wyświetlane typy danych odzwierciedlają wybraną szczegółowość. Na przykład ARRAY<INT> staje się INT po spłaszczeniu. Więcej informacji zawiera sekcja Mapowania typów danych.

Usuwanie zadania

Możesz usunąć zadanie danych, jeśli nie jest uruchomione i nie ma zależności od zadań podrzędnych w tym samym projekcie.

W widoku Projekt potoku projektu kliknij na zadaniu i wybierz Usuń.

Artefakty (tabele i widoki) utworzone przez zadanie również zostaną usunięte, chyba że zdecydujesz się je zachować.

Pamiętaj, że zachowane artefakty nie będą już aktualizowane przez zadanie.

Wyświetlanie informacji o zadaniu

Kliknij na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:

Właściciel
Przestrzeń
Platforma danych
Identyfikator projektu
Identyfikator czasu wykonania zadania danych

Ustawienia transformacji strumieniowej

Możesz ustawić właściwości dla zadania Transformacja danych strumieniowych, gdy platformą danych jest Qlik Open Lakehouse.

Kliknij Ustawienia.

Ustawienia ogólne

Schemat zadania

Możesz zmienić nazwę schematu zadania transformacji strumieniowej. Domyślna nazwa to nazwa zadania przechowywania.
Schemat wewnętrzny

Możesz zmienić nazwę wewnętrznego schematu zasobu danych przechowywania. Domyślna nazwa to nazwa zadania przechowywania z dołączonym _internal.
Sufiks dla wszystkich tabel i widoków
Możesz ustawić prefiks dla wszystkich tabel i widoków utworzonych za pomocą tego zadania.

InformacjaJeśli chcesz użyć schematu bazy danych w kilku zadaniach danych, musisz użyć unikatowego prefiksu.
Folder do użycia

Możesz zmienić folder przechowywania zadania transformacji strumieniowej.
Ustawienia ładowania dla nowych zestawów danych
- Tylko dołączanie
  
  Dodaje nowe rekordy bez modyfikowania istniejących danych. Ograniczenia klucza nie są egzekwowane w przypadku pojawienia się zduplikowanych rekordów.
- Zastosuj zmiany
  
  Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól klucza.
  
  Jeśli wybierzesz scalanie zmian, możesz również wybrać następujące opcje:
  - Miękkie usuwanie rekordów poprzez podanie wyrażenia usuwania
    
    Zdefiniuj wyrażenie usuwania, aby oznaczyć rekordy do usunięcia.
  - Zachowaj rekordy historyczne (Typ 2)
    
    Zachowaj poprzednie wersje zmienionych rekordów.
Odgnieżdżanie kolumn
- Zachowaj zagnieżdżone kolumny
  
  Wybierz, aby zachować zagnieżdżone dane.
- Odgnieźdź do oddzielnych kolumn
  
  Domyślnym zachowaniem jest odgnieżdżanie danych do oddzielnych kolumn.
Partycjonowanie tabel docelowych

InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Tylko dołączanie.
- Brak partycji
  
  Nowe tabele są tworzone bez partycji.
- Partycjonuj według daty zdarzenia
  
  Nowe tabele są partycjonowane według daty pozyskania zdarzeń.
Obsługa zmian danych

InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Zastosuj zmiany.
- Uwzględnij miękkie usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia.
- Utwórz magazyn danych historycznych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.
Zarządzanie retencją
- Brak przycinania partycji
- Przycinanie partycji bieżącej migawki

Definicje tabel

hdr__from_timestamp

Gdy ta opcja jest włączona, kolumna nagłówka hdr__from_timestamp pojawi się w widokach standardowych. Ponadto, gdy w kreatorze wdrażania zostanie wybrana opcja Partycjonuj według daty pozyskania zdarzenia, hdr__from_timestamp zostanie użyta jako domyślna kolumna partycji.

InformacjaWidoki historii zawsze uwzględniają wszystkie kolumny nagłówka widoku standardowego, niezależnie od tego ustawienia.

Ustawienia środowiska uruchomieniowego

Klaster Lakehouse

Możesz zmienić klaster lakehouse, ale musi on obsługiwać obciążenia strumieniowe lub obciążenia mieszane.

Ustawienia ewolucji schematu

Dodaj nowe zestawy danych

To ustawienie ma zastosowanie, gdy nowe zestawy danych są dodawane do zadania umieszczania strumieniowego.

InformacjaObsługiwane tylko wtedy, gdy umieszczanie strumieniowe odczytuje z platformy Kafka.
- Zastosuj do celu
  
  Automatycznie dodaje nowe zestawy danych z zadania umieszczania strumieniowego do zadania transformacji strumieniowej. Jest to ustawienie domyślne.
- Ignoruj
  
  Nie dodaje nowych zestawów danych.
Dodaj kolumny na poziomie głównym

To ustawienie ma zastosowanie, gdy nowe kolumny są dodawane do zadania umieszczania strumieniowego na poziomie głównym.
- Zastosuj do celu
  
  Automatycznie dodaje nowe kolumny poziomu głównego z zadania umieszczania strumieniowego do zadania transformacji strumieniowej. Jest to ustawienie domyślne.
- Ignoruj
  
  Nie dodaje nowych kolumn poziomu głównego.
- Zatrzymaj zadanie
  
  Zatrzymuje zadanie transformacji, jeśli w zadaniu umieszczania strumieniowego zostanie wykryta nowa kolumna poziomu głównego.
Dodaj kolumny do struktur

To ustawienie ma zastosowanie, gdy nowe pola są dodawane wewnątrz istniejącej zagnieżdżonej struktury w zadaniu umieszczania strumieniowego.
- Zastosuj do celu
  Automatycznie dodaje nowe pola do istniejących struktur w zadaniu transformacji strumieniowej, jeśli zostaną one dodane do struktury umieszczania.
- Ignoruj
  
  Nie dodaje nowych pól do istniejących struktur.
- Zatrzymaj zadanie
  
  Zatrzymuje zadanie transformacji, jeśli nowe pole zostanie dodane do struktury w zadaniu umieszczania strumieniowego.
Zmień typ danych pola
- Ignoruj
  Nie zmienia typu danych.
- Zatrzymaj zadanie
  
  Zatrzymuje zadanie transformacji, jeśli w zadaniu umieszczania strumieniowego zostanie wykryta zmiana typu danych.

Ustawienia zestawu danych

Następujące ustawienia są dostępne dla wszystkich zestawów danych w widoku Projektowanie > Zestawy danych.

Kliknij więcej obok zestawu danych i wybierz Ustawienia.

Obsługa ładowania danych

Wybiera sposób ładowania danych do tabeli docelowej.
- Tylko dołączanie
  
  Dodaje nowe rekordy bez modyfikowania istniejących danych. Ograniczenia klucza nie są egzekwowane w przypadku pojawienia się zduplikowanych rekordów.
- Zastosuj zmiany
  
  Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól klucza.
Obsługa zmian danych

InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Zastosuj zmiany.
- Uwzględnij miękkie usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia. Powinno to być wyrażenie, które przyjmuje wartość Prawda (True), jeśli zmiana jest miękkim usunięciem.
  
  Przykład: operation = 'D'
- Utwórz magazyn danych historycznych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.
Kolumny partycji

Opcjonalnie możesz wybrać kolumny partycji, aby zoptymalizować wydajność.

Kliknij Dodaj kolumnę, aby dodać kolumnę partycji, a następnie wybierz Transformację i ustaw Parametr, jeśli jest to wymagane.
Zarządzanie retencją

Przycinanie partycji usuwa partycje, które są starsze niż okres retencji. Nie powoduje to fizycznego usunięcia danych i nie wpływa natychmiast na starsze migawki. Starsze dane mogą być dostępne w starszych migawkach, dopóki nie wygasną.

InformacjaPojawia się tylko wtedy, gdy partycja ma co najmniej jedną kolumnę daty lub daty i godziny.
- Brak przycinania partycji
- Przycinanie partycji bieżącej migawki
Sortuj kolumny

InformacjaTa opcja jest dostępna tylko wtedy, gdy w sekcji Ustawienia ładowania wybrano opcję Tylko dołączanie.

Opcjonalnie możesz określić kolumny, według których dane będą sortowane w każdym pliku tabeli Iceberg. Podczas pozyskiwania danych Iceberg używa tych kolumn do porządkowania rekordów. Zdefiniowanie kluczy sortowania w kolumnach często używanych w zapytaniach poprawia lokalność danych, co skutkuje szybszą wydajnością odczytu i bardziej wydajną kompresją. Odpowiednio skonfigurowane klucze sortowania zapewniają optymalną organizację danych pod kątem wydajności zapytań.

Kliknij Dodaj kolumnę, aby dodać kolumnę sortowania, a następnie ustaw porządek sortowania.
Czas wygasania migawki

To ustawienie kontroluje, jak długo przechowywane są migawki, co znacząco wpływa na rozmiar tabeli i koszty przechowywania. W przypadku często aktualizowanych tabel zaleca się krótszy czas trwania, aby pomóc obniżyć koszty przechowywania.

InformacjaWprowadź 0, aby wyłączyć wygasanie migawki.
Nagłówki widoku standardowego
- Dziedzicz z ustawień zadania danych
  
  Jest to ustawienie domyślne. Wyłącz, jeśli chcesz ustawić określone kolumny nagłówka tylko dla tego zestawu danych.
- hdr__from_timestamp
  
  Gdy ta opcja jest włączona, kolumna nagłówka hdr__from_timestamp pojawi się w widokach standardowych. Ponadto, gdy w kreatorze wdrażania zostanie wybrana opcja Partycjonuj według daty pozyskania zdarzenia, hdr__from_timestamp zostanie użyta jako domyślna kolumna partycji.
  
  InformacjaWidoki historii zawsze uwzględniają wszystkie kolumny nagłówka widoku standardowego, niezależnie od tego ustawienia.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię