Перейти к основному содержимому Перейти к дополнительному содержимому

Выгрузка данных в Открытое озеро данных Qlik для промежуточного хранения

Данные выгружаются в Amazon S3 уже готовыми к задаче хранения, преобразующей их в формат открытых таблиц Iceberg. Можно выгрузить данные из любого источника, поддерживаемого Qlik.

Для промежуточного хранения данных в Открытое озеро данных Qlik необходимо настроить блок Amazon S3. Открытое озеро данных Qlik оптимизирован для работы с источниками, поставляющими большие объемы потоковых данных, и совместим со всеми источниками, которые поддерживаются в Qlik. Выгрузка данных в S3 в формате CSV. Задача «Хранение данных» преобразует данные в формат Iceberg и копирует их в файлы Parquet. Спецификация Iceberg позволяет выполнять запросы к данным из любого движка, который напрямую поддерживает Trino SQL — например, Amazon Athena, Ahana или Starburst Enterprise. При необходимости таблицы могут быть зеркально отображены в Snowflake, где запрос к ним не будет требовать дубликатов.

Промежуточное хранение данных в Открытое озеро данных Qlik доступно в проектах, где в качестве цели используется AWS Glue Data Catalog.

Подготовка

  • Чтобы зеркально отобразить данные в Snowflake, необходимо сначала создать проект Открытое озеро данных Qlik, который будет поставлять данные и сохранять их в формате открытых таблиц Iceberg. Можно также добавить задачу «Зеркальные данные» после задачи «Хранение данных». Чтобы выполнить преобразование данных, создайте проект Snowflake, который использует проект Открытое озеро данных Qlik в качестве источника данных. Для получения дополнительной информации см. раздел Зеркальное отображение данных в облачное хранилище данных.

  • Хотя можно задать параметры для подключения источника и цели в мастере настройки задачи, с целью упрощения процедуры настройки рекомендуется сделать это до настройки задачи.

Создание задачи промежуточного хранения данных в озере

Чтобы создать задание на выгрузку данных в озеро, выполните следующее:

  1. Создайте проект и выберите Конвейер данных в списке Пример использования.

  2. Выберите Открытое озеро данных Qlik в поле Платформа данных и подключитесь к каталогу данных.

  3. Настройте область хранения в разделе Подключение к цели промежуточного хранения.

  4. Нажмите кнопку Создать, чтобы создать проект.

При подключении данных или создании задачи промежуточного хранения в проекте, вместо задачи Промежуточное хранение создается задача Промежуточное хранение в озере. Задачи Промежуточное хранение в озере выполняются и ведут себя по большей части как задачи Промежуточное хранение, за исключением того, что данные помещаются в облачное хранилище. Для получения дополнительной информации см. раздел Промежуточное хранение данных, полученных из источников данных.

Все файлы выгружаются в формате CSV. После обновления данных в промежуточном хранилище задача хранения, использующая задачу промежуточного хранения, будет обновлять внешние таблицы.

Настройки

Для получения дополнительной информации о параметрах задачи см. раздел Параметры промежуточного хранения в озере данных.

Ограничения

  • Данные промежуточного хранения не разделяются на блоки, так как задача хранения выполняется каждую минуту. Поэтому в настройках задачи нельзя изменить частоту разделения данных.

  • Хотя выгрузка данных из источников SaaS происходит по расписанию, задача хранения выполняется минимальными пакетами каждую минуту. Для этого необходим активный и самый дешевый кластер Lakehouse.

  • Если значение первичного ключа изменяется, записи с исходным ключом помечаются как удаленные, а строка, содержащая измененное значение ключа, помечается как «Вставка».

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!