Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Przechowywanie strumieniowych zestawów danych

Następujące ustawienia zadania transformacji strumieniowej mają zastosowanie do projektów Qlik Open Lakehouse korzystających ze źródła strumieniowego.

Możesz przechowywać i transformować dane strumieniowe za pomocą zadania transformacji danych strumieniowych. Dane strumieniowe często zawierają zagnieżdżone struktury i tablice, które wymagają spłaszczenia, a możliwości transformacji są potrzebne podczas fazy przechowywania. Te możliwości są dostępne dla zadania transformacji strumieniowej, umożliwiając zastosowanie transformacji natychmiast po umieszczeniu danych strumieniowych.

Zarządzanie szczegółowością zestawu danych

Możesz spłaszczać zagnieżdżone struktury i tablice, aby zwiększyć szczegółowość. Szczegółowość jest wyświetlana w widoku Zestaw danych. Kliknij edytuj, aby edytować szczegółowość:

  • Wybranie pola z tablicy spowoduje, że tabela docelowa będzie zawierać jeden wiersz na element. Spowoduje to zwiększenie liczby wierszy w obiekcie docelowym.

  • Należy wybrać pola z tej samej ścieżki tablicy. Wybranie pól z różnych ścieżek spowoduje błąd walidacji.

  • Wyświetlane typy danych odzwierciedlają wybraną szczegółowość. Na przykład ARRAY<INT> staje się INT po spłaszczeniu. Więcej informacji zawiera temat Mapowania typów danych.

Wyświetlanie informacji o zadaniu

Kliknij Informacje na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:

  • Właściciel

  • Przestrzeń

  • Platforma danych

  • Identyfikator projektu

  • Identyfikator czasu wykonania zadania danych

Ustawienia transformacji strumieniowej

Ustawienia pamięci masowej

Możesz ustawić właściwości zadania transformacji danych strumieniowych, gdy platformą danych jest Qlik Open Lakehouse.

  • Kliknij opcję Ustawienia.

Ustawienia ogólne

  • Schemat zadania

    Możesz zmienić nazwę schematu zadania transformacji strumieniowej. Domyślna nazwa to nazwa zadania pamięci masowej.

  • Schemat wewnętrzny

    Możesz zmienić nazwę schematu zasobu danych wewnętrznej pamięci masowej. Domyślną nazwą jest nazwa zadania pamięci masowej z dodatkiem _internal.

  • Sufiks dla wszystkich tabel i widoków

    Możesz ustawić prefiks dla wszystkich tabel i widoków utworzonych za pomocą tego zadania.

    InformacjaJeśli chcesz użyć schematu bazy danych w kilku zadaniach danych, musisz użyć unikatowego prefiksu.
  • Folder do użycia

    Możesz zmienić folder przechowywania zadania transformacji strumieniowej.

  • Załaduj ustawienia nowych zestawów danych

    • Tylko dołącz

      Dodaje nowe rekordy bez modyfikowania istniejących danych.Ograniczenia klucza nie są wymuszane, jeśli pojawią się zduplikowane rekordy.

    • Zastosuj zmiany

      Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól kluczowych.

      Jeśli wybierzesz scalanie zmian, możesz również wybrać następujące opcje:

      • Usuwanie logiczne rekordów poprzez podanie wyrażenia usuwania

        Zdefiniuj wyrażenie usuwania, aby oznaczyć rekordy do usunięcia.

      • Zachowaj historyczne rekordy (Typ 2)

        Zachowaj poprzednie wersje zmienionych rekordów.

  • Anulowanie zagnieżdżenia kolumn

    • Zachowaj zagnieżdżone kolumny

      Wybierz, aby zachować zagnieżdżone dane.

    • Anuluj zagnieżdżenie, rozmieszczając w osobnych kolumnach

      Domyślne zachowanie polega na rozgrupowaniu danych na osobne kolumny.

  • Partycja tabel docelowych

    InformacjaTa opcja jest dostępna tylko, gdy w Ustawieniach ładowania wybrano opcję Tylko dołączanie.
    • Brak partycji

      Nowe tabele są tworzone bez partycji.

    • Partycjonowanie według daty zdarzenia

      Nowe tabele są partycjonowane według daty pozyskania zdarzeń.

  • Sposób obsługi zmiany danych

    InformacjaTa opcja jest dostępna tylko, gdy w Ustawieniach ładowania wybrano opcję Zastosuj zmiany.
    • Uwzględnij miękkie usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia.

    • Utwórz historyczny magazyn danych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.

  • Zarządzanie przechowywaniem
    • Bez pomijania partycji

    • Pomijanie partycji bieżącej migawki

Ustawienia czasu działania

  • Klaster lakehouse

    Możesz zmienić klaster lakehouse, ale musi on obsługiwać obciążenia strumieniowe lub mieszane.

Ustawienia ewolucji schematu

  • Dodaj kolumny na poziomie głównym

    To ustawienie ma zastosowanie, gdy nowe kolumny są dodawane do strumieniowego zadania umieszczania na poziomie głównym.

    • Zastosuj do celu

      Automatycznie dodaje nowe kolumny na poziomie głównym ze strumieniowego zadania umieszczania do zadania transformacji strumieniowej. Jest to ustawienie domyślne.

    • Ignoruj

      Nie dodaje nowych kolumn na poziomie głównym.

    • Zatrzymaj zadanie

      Zatrzymuje zadanie transformacji, jeśli nowa kolumna na poziomie głównym zostanie wykryta w zadaniu umieszczania strumienia.

  • Dodaj kolumny do struktur

    To ustawienie ma zastosowanie, gdy nowe pola są dodawane wewnątrz istniejącej zagnieżdżonej struktury w zadaniu umieszczania strumienia.

    • Zastosuj do celu

      Automatycznie dodaje nowe pola do istniejących struktur w zadaniu transformacji strumieniowej, jeśli zostaną dodane do struktury umieszczania.

    • Ignoruj

      Nie dodaje nowych pól do istniejących struktur.

    • Zatrzymaj zadanie

      Zatrzymuje zadanie transformacji, jeśli nowe pole zostanie dodane do struktury w zadaniu umieszczania strumieniowego.

  • Zmień typ danych pola

    • Ignoruj

      Nie zmienia typu danych.

    • Zatrzymaj zadanie

      Zatrzymuje zadanie transformacji, jeśli wykryto zmianę typu danych w zadaniu umieszczania strumieniowego.

Ustawienia zestawu danych

Następujące ustawienia są dostępne dla wszystkich zestawów danych w widoku Projektu > Zestawach danych.

Kliknij więcej obok zestawu danych i wybierz Ustawienia.

  • Sposób obsługi ładowania danych

    Wybiera sposób ładowania danych do tabeli docelowej.

    • Tylko dołącz

      Dodaje nowe rekordy bez modyfikowania istniejących danych.Ograniczenia klucza nie są wymuszane, jeśli pojawią się zduplikowane rekordy.

    • Zastosuj zmiany

      Aktualizuje istniejące rekordy i wstawia nowe rekordy na podstawie pól kluczowych.

  • Sposób obsługi zmiany danych

    InformacjaTa opcja jest dostępna tylko wtedy, gdy Zastosuj zmiany jest wybrane w Ustawieniach ładowania.
    • Uwzględnij nietrwałe usunięcia: Wprowadź wyrażenie, aby zdefiniować, które rekordy mają zostać oznaczone do usunięcia. Powinno to być wyrażenie, którego wynikiem jest Prawda, jeśli zmiana polega na usunięciu nietrwałym.

      Przykład: operation = 'D'

    • Utwórz historyczny magazyn danych (Typ 2): Spowoduje to zachowanie poprzednich wersji zmienionych rekordów.

  • Kolumny do partycjonowania

    Opcjonalnie możesz wybrać kolumny partycji, aby zoptymalizować wydajność.

    Kliknij Dodaj kolumnę, aby dodać kolumnę partycji, następnie wybierz Przekształcenie i ustaw Parametr, jeśli jest to wymagane.

  • Zarządzanie przechowywaniem

    Przycinanie partycji usuwa partycje, które są starsze niż okres przechowywania. Nie powoduje to fizycznego usunięcia danych i nie wpływa natychmiast na starsze migawki. Starsze dane mogą być dostępne w starszych migawkach, dopóki nie wygasną.

    InformacjaPojawia się tylko, jeśli partycja ma co najmniej jedną kolumnę daty lub daty i godziny.
    • Bez pomijania partycji

    • Pomijanie partycji bieżącej migawki

  • Kolumny sortowania

    InformacjaTa opcja jest dostępna tylko, gdy w Ustawieniach ładowania wybrano Tylko dołączanie.

    Opcjonalnie możesz określić kolumny, według których dane będą sortowane w każdym pliku tabeli Iceberg. Podczas pobierania danych Iceberg używa tych kolumn do porządkowania rekordów. Zdefiniowanie kluczy sortowania w kolumnach często używanych w zapytaniach poprawia lokalizację danych, co skutkuje szybszym odczytem i skuteczniejszą kompresją. Prawidłowo skonfigurowane klucze sortowania zapewniają optymalną organizację danych w celu zwiększenia wydajności zapytań.

    Kliknij Dodaj kolumnę, aby dodać kolumnę sortowania, a następnie ustaw kolejność sortowania.

  • Czas wygaśnięcia migawki

    To ustawienie kontroluje, jak długo przechowywane są migawki, co ma znaczący wpływ na rozmiar tabeli i koszty przechowywania. W przypadku często aktualizowanych tabel zaleca się stosowanie krótszych okresów, aby obniżyć koszty przechowywania.

    InformacjaWprowadź 0, aby wyłączyć wygasanie migawki.

 

 

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!