Ustawienia strumieniowego umieszczania w jeziorze danych
Poniższe ustawienia zadania strumieniowego umieszczania w jeziorze danych mają zastosowanie do projektów Qlik Open Lakehouse używających źródła strumieniowego.
Ogólne
Folder do użycia
Wybierz folder, który będzie używany podczas umieszczania danych w obszarze tymczasowym.
-
Domyślny folder
W ten sposób zostanie utworzony folder o domyślnej nazwie: <nazwa projektu>/<nazwa zadania danych>.
-
Folder główny
Zapisz dane w głównym folderze pamięci masowej.
-
Folder
Określ nazwę folderu, który ma być używany.
Zachowanie folderu
Wybierz, jak długo przechowywać dane:
-
Dane i metadane nie są usuwane: Ani dane, ani metadane nie są usuwane.
-
Usuń dane i metadane po okresie przechowywania: Dane i metadane są usuwane po upływie okresu przechowywania,
-
Usuń metadane po okresie przechowywania. Dane są usuwane przez system zewnętrzny.Dane są trwale usuwane po upływie tego okresu. Metadane są usuwane, ale podstawowe dane, na przykład obiekt S3, nie są usuwane przez Qlik.
Odczytaj dane z
Wybierz, kiedy mają być pozyskiwane dane z:
-
Zacznij od teraz
Pozyskuj tylko zdarzenia, które pojawiają się, gdy potok się rozpoczyna.
-
Zacznij od najwcześniejszego zdarzenia (domyślnie)
Pobierz wszystkie dane historyczne.
Typy zawartości
Wybierz format pliku z listy, na przykład JSON lub CSV. Można to zmienić po uruchomieniu zadania, odtwarzając je. Szczegółowe informacje dotyczące każdego formatu pliku znajdują się w sekcji Typy zawartości.
Ewolucja schematu
Nowy temat/strumieńWybierz sposób obsługi nowych strumieni/tematów.
-
Dodaj do elementu docelowego: Jeśli załadujesz wszystkie tabele do jednej tabeli docelowej, nowe dane zostaną dodane do tej tabeli. Jeśli załadujesz każdy temat do innego zestawu danych, nowy temat zostanie dodany do nowego zestawu danych.
-
Ignoruj: Nowe dane nie są dodawane do elementu docelowego.
Czas działania
Liczba czytników
-
Apache Kafka: Wybierz liczbę czytników do użycia. Wartość musi mieścić się w przedziale od 1 do 1000.
-
Amazon Kinesis: Wybierz liczbę fragmentów strumienia.
-
Amazon S3: To ustawienie nie ma zastosowania do źródeł strumieniowych S3.
Klaster lakehouse
Wybierz klaster strumieniowy. Zadanie umieszczania strumieniowego i zadania transformacji strumieniowej nie muszą znajdować się w tym samym klastrze, ale muszą znajdować się w tej samej integracji sieciowej.
Typy zawartości
Następujące ustawienia mają zastosowanie do każdego formatu pliku.
-
JSON
-
Jest to domyślny format pliku, jeśli nie zdefiniowano inaczej.
-
-
CSV i TSV
-
Pierwszy wiersz zawiera nagłówki: Wybrane domyślnie, aby określić, że pierwszy wiersz zawiera rekord nagłówka.
-
Wiersz nagłówka (Opcjonalnie): Jeśli pierwszy wiersz nie jest nagłówkiem, zdefiniuj nazwy nagłówków.
-
Separator: Wybierz domyślny separator, jeśli nie jest to domyślny (przecinek dla CSV, tabulator dla TSV).
-
Znak ucieczki cudzysłowu: Wybierz domyślny znak ucieczki cudzysłowu, jeśli nie jest to domyślny cudzysłów podwójny.
-
Wartość null (Opcjonalnie): Wprowadź zastępczą wartość null.
-
Zezwalaj na duplikowanie nagłówków: Jeśli dwie kolumny mają taką samą nazwę, druga jest dodawana z inną nazwą.
-
-
Parquet, Avro i ORC
-
Nie są wymagane żadne dodatkowe ustawienia.
-
-
Wyrażenie regularne
-
Wzorzec: Wprowadź wzorzec wyrażenia regularnego.
-
Wielowierszowy: Ta opcja jest domyślnie wybrana.
-
-
Podziel linie:
-
Regex: Wprowadź wyrażenie regularne dla podziału.
-