Dołączanie danych
Pierwszym etapem tworzenia potoku danych w projekcie Qlik Open Lakehouse jest dołączenie danych. Proces ten polega na przesyłaniu danych ze źródła danych i przechowywaniu zestawów danych w zoptymalizowanych tabelach Iceberg. Zmiany pochodzące ze źródeł danych są na bieżąco wprowadzane do tabel danych w wydajnych minipartiach.
Dołączanie danych powstaje w ramach jednej operacji, ale odbywa się ono w dwóch etapach.
-
Umieszczanie danych
Obejmuje to ciągłe przesyłanie danych z lokalnego źródła danych do obszaru umieszczania za pomocą zadania umieszczania danych.
Umieszczanie danych ze źródeł danych
Dane można także umieszczać w lakehouse i wówczas trafiają one do pamięci masowej plików S3.
-
Przechowywanie zestawów danych
Obejmuje to odczytywanie początkowego ładowania danych do umieszczenia lub obciążeń przyrostowych i stosowanie danych w formacie zoptymalizowanym pod kątem odczytu przy użyciu zadania danych pamięci masowej.
Po dołączeniu danych możesz wykorzystać przechowywane zestawy danych na kilka sposobów.
-
Tych zestawów danych można używać w aplikacji analitycznej.
-
Można wykonać kopię lustrzaną danych w usłudze Snowflake, dodając zadanie mirroringu danych bezpośrednio do zadania przechowywania danych.
-
Transformację danych w Snowflake można przeprowadzić, tworząc potok międzyprojektowy, który pobiera dane z projektu dołączania.
Dołączanie danych
Rozpoczynasz dołączanie danych do projektu. Zestawy danych będą przechowywane w S3 w projekcie. Więcej informacji na temat projektów zawiera temat Tworzenie projektu potoku danych.
-
W projekcie kliknij Utwórz, a następnie Dołącz dane.
WskazówkaMożesz także kliknąćna istniejącym źródle w projekcie, a następnie kliknąć Dołącz dane.
-
DodajNazwę i Opis w celu dołączenia danych.
Kliknij przycisk Dalej.
-
Wybierz połączenie źródłowe.
Możesz wybrać istniejące połączenie ze źródłem lub utworzyć nowe połączenie ze źródłem.
Więcej informacji zawiera temat Konfiguracja połączeń ze źródłami danych.
Kliknij przycisk Dalej.
-
Wybierz dane do załadowania.
Więcej informacji zawiera temat Wybieranie danych.
Kliknij przycisk Dalej.
Zostanie wyświetlony ekran Ustawienia, na którym można wybrać metodę aktualizacji i ustawienia historii.
-
Wybierz metodę aktualizacji danych w polu Metoda aktualizacji:
-
Przechwytywanie zmian danych (CDC)
Jeśli dane zawierają tabele nieobsługujące CDC, lub widoków, zostaną utworzone dwa potoki — jeden potok ze wszystkimi tabelami obsługującymi CDC i drugi potok ze wszystkimi innymi tabelami i widokami używającymi Przeładuj i porównaj.
-
Przeładuj i porównaj
-
-
Wybierz, czy chcesz replikować historię poprzednich danych oprócz danych bieżących w Historii.
-
Po zakończeniu kliknij Dalej.
-
Przejrzyj zadania danych, które zostały utworzone w celu dołączenia danych, i zmień ich nazwę, jeśli chcesz.
WskazówkaNazwy te są używane podczas nazywania schematów baz danych w zadaniu danych pamięci masowej. Rozważ użycie unikatowych nazw, aby uniknąć konfliktów z zadaniami danych w innych projektach wykorzystujących tę samą platformę danych. -
Wybierz, czy chcesz otworzyć dowolne z utworzonych zadań danych, czy wrócić do projektu.
Kiedy wszystko będzie gotowe, kliknij Zakończ.
-
Zadania dołączania danych zostały teraz utworzone. Aby rozpocząć replikację danych:
-
Przygotuj i uruchom zadanie umieszczania danych.
Więcej informacji zawiera temat Umieszczanie danych ze źródeł danych.
-
Przygotuj i uruchom zadanie przechowywania danych.
Więcej informacji zawiera temat Przechowywanie zestawów danych.
Wybieranie danych
Możesz wybrać określone tabele lub widok, lub użyć reguł wyboru w celu uwzględnienia lub wykluczenia grup tabel.
Użyj % jako symbolu wieloznacznego, aby określić kryteria wyboru schematów i tabel.
-
%.% określa wszystkie tabele we wszystkich schematach.
-
Public.% definiuje wszystkie tabele w schemacie Publiczny.
Kryteria wyboru dają podgląd na podstawie Twoich wyborów.
Możesz teraz:
-
Utwórz regułę, aby włączyć lub wykluczyć grupę tabel na podstawie kryteriów wyboru.
Kliknij przycisk Dodaj regułę spośród kryteriów wyboru, aby utworzyć regułę, a następnie wybierz opcjęUwzględnij lub Wyklucz.
Regułę można zobaczyć w sekcji Reguły selekcji.
-
Zaznacz jeden lub więcej zestawów danych, a następnie kliknij Dodaj wybrane zestawy danych.
Dodane zestawy danych możesz zobaczyć w sekcji Jawnie wybrane zestawy danych.
Reguły wyboru dotyczą tylko aktualnego zestawu tabel i widoków, a nie tabel i widoków dodanych w przyszłości.