Dane strumieniowe
Proces dołączania danych przenosi dane ze źródła i przechowuje je w tabelach Iceberg. Zmiany pochodzące ze strumieniowych źródeł danych są na bieżąco wprowadzane do tabel magazynu niemal w czasie rzeczywistym.
Dołącz dane
Dane są dołączane w ramach projektu potoku, a zestawy danych są przechowywane w lokalizacji S3 zdefiniowanej w ustawieniach projektu.
-
W projekcie kliknij Utwórz, a następnie Dołącz dane.
-
Dodaj Nazwę zadania i opcjonalny Opis w celu dołączenia danych.
Kliknij przycisk Dalej.
-
Wybierz połączenie źródłowe.
Możesz wybrać istniejące połączenie ze źródłem strumieniowym lub utworzyć nowe połączenie ze źródłem.
Więcej informacji zawiera temat Łączenie ze strumieniami danych
Kliknij Dalej i postępuj zgodnie z poniższymi instrukcjami dla Twojego źródła danych.
Wybieranie danych
Apache Kafka i Amazon Kinesis
Lista wyświetla dostępne tematy Kafka lub strumienie Kinesis z hosta zdefiniowanego w połączeniu źródłowym.
Podczas wybierania tematów/strumieni możesz wybrać określone zestawy danych lub użyć reguł wyboru, aby uwzględnić lub wykluczyć grupy zestawów danych:
-
Użyj % jako symbolu wieloznacznego, aby określić kryteria wyboru dla zestawów danych.
-
%.% definiuje wszystkie zestawy danych we wszystkich strumieniach.
Jeśli tematy są wybierane przy użyciu reguł wyboru, możesz wybrać, czy załadować wszystkie zestawy danych do tej samej tabeli docelowej, czy utworzyć oddzielną tabelę docelową dla każdego tematu źródłowego:
-
Domyślnie nazwa docelowej tabeli Iceberg jest wyprowadzana z nazwy tematu, sformatowana zgodnie z konwencjami nazewnictwa, na przykład małymi literami, z usuniętymi spacjami, myślnikami zastąpionymi podkreśleniami. W Definiuj nazwę docelowego zestawu danych możesz edytować nazwę tabeli docelowej
-
Gdy reguły wyboru są używane do ładowania wielu tematów do jednej tabeli, należy podać nazwę docelową.
-
Gdy reguły wyboru są używane, a dane są ładowane do oddzielnych tabel (jeden zestaw danych na temat), domyślne nazwy docelowe to nazwy tematów. Na tym etapie nie można edytować nazw w kreatorze, ale można to zrobić później w zadaniu umieszczania.
-
Jeśli reguła jest skonfigurowana do wybierania tematów do pozyskiwania, wszelkie nowe tematy spełniające kryteria reguły są również umieszczane, jeśli opcja Nowy temat > Dodaj do elementu docelowego w sekcji ewolucji schematu w ustawieniach zadania umieszczania jest zaznaczona.
Zaznacz jeden lub więcej zestawów danych, a następnie kliknij Dodaj wybrane strumienie. Dodane zestawy danych możesz zobaczyć w sekcji Jawnie wybrane strumienie. Kliknij przycisk Dalej.
Amazon S3
Przeglądarka katalogów wyświetla listę wszystkich katalogów znajdujących się w zasobniku S3 Twojego połączenia źródłowego.
-
Wybierz katalogi do uwzględnienia podczas umieszczania danych:
-
Dla każdego katalogu, w Dodaj ścieżkę, wprowadź ścieżkę i wzorzec nazwy pliku:
-
Użyj * jako symbolu wieloznacznego, aby dopasować dowolny znak.
-
Aby wprowadzić wzorzec daty, użyj <yyyy> jako symbolu zastępczego dla czterocyfrowego roku, <MM> jako symbolu zastępczego dla dwucyfrowego miesiąca, <dd> jako symbolu zastępczego dla dwucyfrowego dnia i <HH> jako symbolu zastępczego dla dwucyfrowej godziny. Na przykład:
-
MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
Kliknij Podgląd, aby otworzyć okno dialogowe Podgląd danych. Wyświetlana jest lista uwzględnionych i wykluczonych plików.
-
Kliknij Weryfikuj, aby sprawdzić dane.
-
W Zdefiniuj nazwę docelowego zestawu danych podaj nazwę, aby zamapować temat na docelową tabelę Iceberg. Kliknij przycisk Dalej.
Wybieranie typu zawartości
Wybierz typ zawartości zdarzeń źródłowych.
-
Wybierz typ zdarzeń, które są pozyskiwane w Wybierz typ zdarzeń danych.
-
Więcej informacji zawiera temat Łączenie ze strumieniami danych.
Wybrany typ zawartości dotyczy wszystkich tematów. Musisz utworzyć nowe zadanie dla każdego typu zawartości, który chcesz pozyskać.
-
Rozwiń Sprawdź, czy zdarzenia zostały poprawnie załadowane, aby potwierdzić, że dane mogą zostać przeanalizowane. Musisz upewnić się, że dane są poprawne na tym etapie, w przeciwnym razie musisz ponownie utworzyć potok i załadować dane. Użyj Wybierz zestaw danych, aby zbadać konkretne zestawy danych i sprawdzić wszelkie ostrzeżenia, które mogą mieć wpływ na ładowanie danych. Kliknij ikonę oka obok dowolnych kolumn struktury, aby wyświetlić dane.
-
Kliknij przycisk Dalej.
Ustawianie właściwości pozyskiwania
Skonfiguruj ustawienia dla swojego potoku:
-
Odczytaj dane z
-
Rozpocznij od najwcześniejszego zdarzenia: przetwarzaj wszystkie dane historyczne.
-
Rozpocznij od teraz: przetwarzaj nowe dane napływające od momentu uruchomienia potoku.
-
-
Anulowanie zagnieżdżenia kolumn
-
Zachowaj zagnieżdżone kolumny: nie są stosowane żadne transformacje.
-
Rozwiń do oddzielnych kolumn: dane są dzielone na oddzielne kolumny.
-
-
Ustawienia ładowania
-
Tylko dołączanie: zazwyczaj najlepsza opcja dla danych zdarzeń, ponieważ zazwyczaj mają krótki okres życia i nie są aktualizowane, na przykład, Zamówienia.
-
Scalanie: jest to najlepiej dopasowane do danych, które są aktualizowane w czasie, na przykład Klienci.
-
-
Partycja tabel docelowych
Opcja partycjonowania tabeli docelowej dotyczy wszystkich tabel w potoku. Możesz to później zastąpić na poziomie tabeli dla niestandardowego partycjonowania.
-
Bez partycjonowania: tabele są tworzone bez partycjonowania.
-
Partycjonuj według daty pobrania zdarzeń: tabele są partycjonowane według daty pobrania zdarzeń.
-
-
Kliknij przycisk Dalej.
Podsumowanie
Ekran podsumowania zapewnia wizualne przedstawienie Twojego potoku:
-
Opcjonalnie, dla zadania umieszczania strumieniowego i zadania transformacji strumieniowej, możesz kliknąć Edytuj nazwę i opis, aby podać nowe wartości.
-
Wybierz opcję, co ma się stać Po utworzeniu potoku.
-
Po skonfigurowaniu wszystkich ustawień kliknij Utwórz, aby utworzyć projekt potoku.
-
Gdy projekt zostanie wyświetlony, możesz przygotować i uruchomić każde zadanie, aby rozpocząć pozyskiwanie danych.
-
Przygotuj i uruchom zadanie umieszczania strumieniowego.
Więcej informacji zawiera temat Umieszczanie strumieniowych danych w Qlik Open Lakehouse.
-
Przygotuj i uruchom zadanie transformacji strumieniowej.
Więcej informacji zawiera temat Przechowywanie strumieniowych zestawów danych.
-