Выгрузка данных в Открытое озеро данных Qlik для промежуточного хранения
Данные выгружаются в Amazon S3 уже готовыми к задаче хранения, преобразующей их в формат открытых таблиц Iceberg. Можно выгрузить данные из любого источника, поддерживаемого Qlik.
Для промежуточного хранения данных в Открытое озеро данных Qlik необходимо настроить блок Amazon S3. Открытое озеро данных Qlik оптимизирован для работы с источниками, поставляющими большие объемы потоковых данных, и совместим со всеми источниками, которые поддерживаются в Qlik. Выгрузка данных в S3 в формате CSV. Задача «Хранение данных» преобразует данные в формат Iceberg и копирует их в файлы Parquet. Спецификация Iceberg позволяет выполнять запросы к данным из любого движка, который напрямую поддерживает Trino SQL — например, Amazon Athena, Ahana или Starburst Enterprise. При необходимости таблицы могут быть зеркально отображены в Snowflake, где запрос к ним не будет требовать дубликатов.
Промежуточное хранение данных в Открытое озеро данных Qlik доступно в проектах, где в качестве цели используется AWS Glue Data Catalog.
Подготовка
-
Чтобы зеркально отобразить данные в Snowflake, необходимо сначала создать проект Открытое озеро данных Qlik, который будет поставлять данные и сохранять их в формате открытых таблиц Iceberg. Можно также добавить задачу «Зеркальные данные» после задачи «Хранение данных». Чтобы выполнить преобразование данных, создайте проект Snowflake, который использует проект Открытое озеро данных Qlik в качестве источника данных. Для получения дополнительной информации см. раздел Зеркальное отображение данных в облачное хранилище данных.
-
Хотя можно задать параметры для подключения источника и цели в мастере настройки задачи, с целью упрощения процедуры настройки рекомендуется сделать это до настройки задачи.
Создание задачи промежуточного хранения данных в озере
Чтобы создать задание на выгрузку данных в озеро, выполните следующее:
-
Создайте проект и выберите Конвейер данных в списке Пример использования.
-
Выберите Открытое озеро данных Qlik в поле Платформа данных и подключитесь к каталогу данных.
-
Настройте область хранения в разделе Подключение к цели промежуточного хранения.
-
Нажмите кнопку Создать, чтобы создать проект.
При подключении данных или создании задачи промежуточного хранения в проекте, вместо задачи Промежуточное хранение создается задача Промежуточное хранение в озере. Задачи Промежуточное хранение в озере выполняются и ведут себя по большей части как задачи Промежуточное хранение, за исключением того, что данные помещаются в облачное хранилище. Для получения дополнительной информации см. раздел Промежуточное хранение данных, полученных из источников данных.
Все файлы выгружаются в формате CSV. После обновления данных в промежуточном хранилище задача хранения, использующая задачу промежуточного хранения, будет обновлять внешние таблицы.
Настройки
Для получения дополнительной информации о параметрах задачи см. раздел Параметры промежуточного хранения в озере данных.
Ограничения
-
Данные промежуточного хранения не разделяются на блоки, так как задача хранения выполняется каждую минуту. Поэтому в настройках задачи нельзя изменить частоту разделения данных.
-
Хотя выгрузка данных из источников SaaS происходит по расписанию, задача хранения выполняется минимальными пакетами каждую минуту. Для этого необходим активный и самый дешевый кластер Lakehouse.
-
Если значение первичного ключа изменяется, записи с исходным ключом помечаются как удаленные, а строка, содержащая измененное значение ключа, помечается как «Вставка».