Przechowywanie strumieniowych zestawów danych
Następujące ustawienia zadania transformacji strumieniowej mają zastosowanie do projektów Qlik Open Lakehouse korzystających ze źródła strumieniowego.
Możesz przechowywać i transformować dane strumieniowe za pomocą zadania transformacji danych strumieniowych. Dane strumieniowe często zawierają zagnieżdżone struktury i tablice, które wymagają spłaszczenia, a możliwości transformacji są potrzebne podczas fazy przechowywania. Te możliwości są dostępne dla zadania transformacji strumieniowej, umożliwiając zastosowanie transformacji natychmiast po umieszczeniu danych strumieniowych.
Zarządzanie szczegółowością zestawu danych
Możesz spłaszczać zagnieżdżone struktury i tablice, aby zwiększyć szczegółowość. Szczegółowość jest wyświetlana w widoku Zestaw danych. Kliknij , aby edytować szczegółowość:
-
Wybranie pola z tablicy spowoduje, że tabela docelowa będzie zawierać jeden wiersz na element. Spowoduje to zwiększenie liczby wierszy w obiekcie docelowym.
-
Należy wybrać pola z tej samej ścieżki tablicy. Wybranie pól z różnych ścieżek spowoduje błąd walidacji.
-
Wyświetlane typy danych odzwierciedlają wybraną szczegółowość. Na przykład ARRAY<INT> staje się INT po spłaszczeniu. Więcej informacji zawiera temat Mapowania typów danych.
Wyświetlanie informacji o zadaniu
Kliknij na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:
-
Właściciel
-
Przestrzeń
-
Platforma danych
-
Identyfikator projektu
-
Identyfikator czasu wykonania zadania danych
Ustawienia transformacji strumieniowej
Ustawienia pamięci masowej
Możesz ustawić właściwości zadania transformacji danych strumieniowych, gdy platformą danych jest Qlik Open Lakehouse.
-
Kliknij opcję Ustawienia.
Ustawienia ogólne
-
Schemat zadania
Możesz zmienić nazwę schematu zadania transformacji strumieniowej. Domyślna nazwa to nazwa zadania pamięci masowej.
-
Schemat wewnętrzny
Możesz zmienić nazwę schematu zasobu danych wewnętrznej pamięci masowej. Domyślną nazwą jest nazwa zadania pamięci masowej z dodatkiem _internal.
- Sufiks dla wszystkich tabel i widoków
Możesz ustawić prefiks dla wszystkich tabel i widoków utworzonych za pomocą tego zadania.
InformacjaJeśli chcesz użyć schematu bazy danych w kilku zadaniach danych, musisz użyć unikatowego prefiksu. -
Folder do użycia
Możesz zmienić folder przechowywania zadania transformacji strumieniowej.
-
Załaduj ustawienia nowych zestawów danych
-
Tylko dołącz
Dodaje nowe rekordy bez modyfikowania istniejących danych.Ograniczenia klucza nie są wymuszane, jeśli pojawią się zduplikowane rekordy.
-
Zastosuj zmiany
Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól kluczowych.
Jeśli wybierzesz scalanie zmian, możesz również wybrać następujące opcje:
-
Usuwanie logiczne rekordów poprzez podanie wyrażenia usuwania
Zdefiniuj wyrażenie usuwania, aby oznaczyć rekordy do usunięcia.
-
Zachowaj historyczne rekordy (Typ 2)
Zachowaj poprzednie wersje zmienionych rekordów.
-
-
-
Anulowanie zagnieżdżenia kolumn
-
Zachowaj zagnieżdżone kolumny
Wybierz, aby zachować zagnieżdżone dane.
-
Anuluj zagnieżdżenie, rozmieszczając w osobnych kolumnach
Domyślne zachowanie polega na rozgrupowaniu danych na osobne kolumny.
-
-
Partycja tabel docelowych
InformacjaTa opcja jest dostępna tylko, gdy w Ustawieniach ładowania wybrano opcję Tylko dołączanie.-
Brak partycji
Nowe tabele są tworzone bez partycji.
-
Partycjonowanie według daty zdarzenia
Nowe tabele są partycjonowane według daty pozyskania zdarzeń.
-
-
Sposób obsługi zmiany danych
InformacjaTa opcja jest dostępna tylko, gdy w Ustawieniach ładowania wybrano opcję Zastosuj zmiany.-
Uwzględnij miękkie usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia.
-
Utwórz historyczny magazyn danych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.
-
- Zarządzanie przechowywaniem
-
Bez pomijania partycji
-
Pomijanie partycji bieżącej migawki
-
Ustawienia czasu działania
-
Klaster lakehouse
Możesz zmienić klaster lakehouse, ale musi on obsługiwać obciążenia strumieniowe lub mieszane.
Ustawienia ewolucji schematu
-
Dodaj kolumny na poziomie głównym
To ustawienie ma zastosowanie, gdy nowe kolumny są dodawane do strumieniowego zadania umieszczania na poziomie głównym.
-
Zastosuj do celu
Automatycznie dodaje nowe kolumny na poziomie głównym ze strumieniowego zadania umieszczania do zadania transformacji strumieniowej. Jest to ustawienie domyślne.
-
Ignoruj
Nie dodaje nowych kolumn na poziomie głównym.
-
Zatrzymaj zadanie
Zatrzymuje zadanie transformacji, jeśli nowa kolumna na poziomie głównym zostanie wykryta w zadaniu umieszczania strumienia.
-
-
Dodaj kolumny do struktur
To ustawienie ma zastosowanie, gdy nowe pola są dodawane wewnątrz istniejącej zagnieżdżonej struktury w zadaniu umieszczania strumienia.
- Zastosuj do celu
Automatycznie dodaje nowe pola do istniejących struktur w zadaniu transformacji strumieniowej, jeśli zostaną dodane do struktury umieszczania.
-
Ignoruj
Nie dodaje nowych pól do istniejących struktur.
-
Zatrzymaj zadanie
Zatrzymuje zadanie transformacji, jeśli nowe pole zostanie dodane do struktury w zadaniu umieszczania strumieniowego.
- Zastosuj do celu
-
Zmień typ danych pola
- Ignoruj
Nie zmienia typu danych.
-
Zatrzymaj zadanie
Zatrzymuje zadanie transformacji, jeśli wykryto zmianę typu danych w zadaniu umieszczania strumieniowego.
- Ignoruj
Ustawienia zestawu danych
Następujące ustawienia są dostępne dla wszystkich zestawów danych w widoku Projektu > Zestawach danych.
Kliknij obok zestawu danych i wybierz Ustawienia.
-
Sposób obsługi ładowania danych
Wybiera sposób ładowania danych do tabeli docelowej.
-
Tylko dołącz
Dodaje nowe rekordy bez modyfikowania istniejących danych.Ograniczenia klucza nie są wymuszane, jeśli pojawią się zduplikowane rekordy.
-
Zastosuj zmiany
Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól kluczowych.
-
-
Sposób obsługi zmiany danych
InformacjaTa opcja jest dostępna tylko wtedy, gdy Zastosuj zmiany jest wybrane w Ustawieniach ładowania.-
Uwzględnij nietrwałe usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia. Powinno to być wyrażenie, którego wynikiem jest Prawda, jeśli zmiana polega na usunięciu nietrwałym.
Przykład: operation = 'D'
-
Utwórz historyczny magazyn danych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.
-
-
Kolumny do partycjonowania
Opcjonalnie możesz wybrać kolumny partycji, aby zoptymalizować wydajność.
Kliknij Dodaj kolumnę, aby dodać kolumnę partycji, następnie wybierz Przekształcenie i ustaw Parametr, jeśli jest to wymagane.
-
Zarządzanie przechowywaniem
Przycinanie partycji usuwa partycje, które są starsze niż okres przechowywania. Nie powoduje to fizycznego usunięcia danych i nie wpływa natychmiast na starsze migawki. Starsze dane mogą być dostępne w starszych migawkach, dopóki nie wygasną.
InformacjaPojawia się tylko, jeśli partycja ma co najmniej jedną kolumnę daty lub daty i godziny.-
Bez pomijania partycji
-
Pomijanie partycji bieżącej migawki
-
-
Kolumny sortowania
InformacjaTa opcja jest dostępna tylko, gdy w Ustawieniach ładowania wybrano Tylko dołączanie.Opcjonalnie możesz określić kolumny, według których dane będą sortowane w każdym pliku tabeli Iceberg. Podczas pobierania danych Iceberg używa tych kolumn do porządkowania rekordów. Zdefiniowanie kluczy sortowania w kolumnach często używanych w zapytaniach poprawia lokalizację danych, co skutkuje szybszym odczytem i skuteczniejszą kompresją. Prawidłowo skonfigurowane klucze sortowania zapewniają optymalną organizację danych w celu zwiększenia wydajności zapytań.
Kliknij Dodaj kolumnę, aby dodać kolumnę sortowania, a następnie ustaw kolejność sortowania.
-
Czas wygaśnięcia migawki
To ustawienie kontroluje, jak długo przechowywane są migawki, co ma znaczący wpływ na rozmiar tabeli i koszty przechowywania. W przypadku często aktualizowanych tabel zaleca się stosowanie krótszych okresów, aby obniżyć koszty przechowywania.
InformacjaWprowadź 0, aby wyłączyć wygasanie migawki.