Dołączanie danych
Pierwszym etapem tworzenia potoku danych w projekcie Qlik Open Lakehouse jest dołączenie danych. Proces ten polega na przesyłaniu danych ze źródła danych i przechowywaniu zestawów danych w zoptymalizowanych tabelach Iceberg.
Dołączanie danych powstaje w ramach jednej operacji, ale odbywa się ono w dwóch etapach. Typ źródła danych, CDC lub strumieniowe, określa zadania w projekcie:
Źródła CDC
-
Umieszczanie danych
Obejmuje to przesyłanie danych w ciągłych mini-partiach z lokalnego źródła danych do obszaru umieszczania, za pomocą zadania umieszczania danych.
Umieszczanie danych ze źródeł danych
Dane można także umieszczać w lakehouse i wówczas trafiają one do pamięci masowej plików S3.
-
Przechowywanie zestawów danych
Obejmuje to odczytywanie początkowego ładowania danych do umieszczenia lub obciążeń przyrostowych i stosowanie danych w formacie zoptymalizowanym pod kątem odczytu przy użyciu zadania danych pamięci masowej.
Źródła strumieniowe
-
Umieszczanie danych
Obejmuje to ciągłe przesyłanie danych strumieniowo ze źródła do obszaru umieszczania, za pomocą zadania strumieniowego umieszczania danych.
-
Przechowywanie zestawów danych
Obejmuje to odczytywanie początkowego ładowania danych do umieszczania i stosowanie danych w formacie zoptymalizowanym pod kątem odczytu przy użyciu zadania Transformacja danych pamięci masowej.
Korzystanie z dołączonych danych
Po dołączeniu danych możesz wykorzystać przechowywane zestawy danych na kilka sposobów, w tym:
-
Zestawów danych można używać w aplikacji analitycznej.
-
Możesz dublować dane w jednej lub większej liczbie hurtowni danych w chmurze, w tym Amazon Redshift i Snowflake, dodając zadanie dublowania danych bezpośrednio do zadania danych pamięci masowej dla źródeł CDC lub zadania Transformacja strumieniowa dla źródeł strumieniowych.
Więcej informacji zawiera temat Mirroring danych do hurtowni danych w chmurze.
-
Możesz przekształcać dane w swojej hurtowni danych w chmurze, tworząc międzyprojektowy potok, który pobiera dane z projektu dołączania.