Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Dołączanie danych

Pierwszym etapem tworzenia potoku danych w projekcie Qlik Open Lakehouse jest dołączenie danych. Proces ten polega na przesyłaniu danych ze źródła danych i przechowywaniu zestawów danych w zoptymalizowanych tabelach Iceberg.

Dołączanie danych powstaje w ramach jednej operacji, ale odbywa się ono w dwóch etapach. Typ źródła danych, CDC lub strumieniowe, określa zadania w projekcie:

Źródła CDC

  • Umieszczanie danych

    Obejmuje to przesyłanie danych w ciągłych mini-partiach z lokalnego źródła danych do obszaru umieszczania, za pomocą zadania umieszczania danych.

    Umieszczanie danych ze źródeł danych

    Dane można także umieszczać w lakehouse i wówczas trafiają one do pamięci masowej plików S3.

    Umieszczanie danych w Qlik Open Lakehouse

  • Przechowywanie zestawów danych

    Obejmuje to odczytywanie początkowego ładowania danych do umieszczenia lub obciążeń przyrostowych i stosowanie danych w formacie zoptymalizowanym pod kątem odczytu przy użyciu zadania danych pamięci masowej.

    Przechowywanie zestawów danych

Źródła strumieniowe

Korzystanie z dołączonych danych

Po dołączeniu danych możesz wykorzystać przechowywane zestawy danych na kilka sposobów, w tym:

  • Zestawów danych można używać w aplikacji analitycznej.

  • Możesz dublować dane w jednej lub większej liczbie hurtowni danych w chmurze, w tym Amazon Redshift i Snowflake, dodając zadanie dublowania danych bezpośrednio do zadania danych pamięci masowej dla źródeł CDC lub zadania Transformacja strumieniowa dla źródeł strumieniowych.

    Więcej informacji zawiera temat Mirroring danych do hurtowni danych w chmurze.

  • Możesz przekształcać dane w swojej hurtowni danych w chmurze, tworząc międzyprojektowy potok, który pobiera dane z projektu dołączania.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!