Выгрузка данных в Открытое озеро данных Qlik для промежуточного хранения

Данные выгружаются в Amazon S3 уже готовыми к задаче хранения, преобразующей их в формат открытых таблиц Iceberg. Можно выгрузить данные из любого источника, поддерживаемого Qlik.

Для промежуточного хранения данных в Открытое озеро данных Qlik необходимо настроить блок Amazon S3. Открытое озеро данных Qlik оптимизирован для работы с источниками, поставляющими большие объемы потоковых данных, и совместим со всеми источниками, которые поддерживаются в Qlik. Выгрузка данных в S3 в формате CSV. Задача «Хранение данных» преобразует данные в формат Iceberg и копирует их в файлы Parquet. Спецификация Iceberg позволяет выполнять запросы к данным из любого движка, который напрямую поддерживает Trino SQL — например, Amazon Athena, Ahana или Starburst Enterprise. При необходимости таблицы могут быть зеркально отображены в Redshift или Snowflake, где запрос к ним не будет требовать дубликатов.

Промежуточное хранение данных в Открытое озеро данных Qlik доступно в проектах, где в качестве цели используется AWS Glue Data Catalog.

Подготовка

Чтобы зеркально отобразить данные в ваше облачное хранилище данных, необходимо сначала создать проект Открытое озеро данных Qlik, который будет поставлять данные и сохранять их в формате открытых таблиц Iceberg. Можно также добавить задачу «Зеркальные данные» после задачи «Хранение данных». Чтобы выполнить преобразование данных, создайте проект Redshift или Snowflake, который использует проект Открытое озеро данных Qlik в качестве источника данных. Для получения дополнительной информации см. раздел Зеркальное копирование данных в облачное хранилище данных.
Хотя можно задать параметры для подключения источника и цели в мастере настройки задачи, с целью упрощения процедуры настройки рекомендуется сделать это до настройки задачи.

Создание задачи промежуточного хранения данных в озере

Чтобы создать задание на выгрузку данных в озеро, выполните следующее:

Создайте проект и выберите Конвейер данных в списке Пример использования.
Выберите Открытое озеро данных Qlik в поле Платформа данных и подключитесь к каталогу данных.
Настройте область хранения в разделе Подключение к цели промежуточного хранения.
Нажмите кнопку Создать, чтобы создать проект.

При подключении данных или создании задачи промежуточного хранения в проекте, вместо задачи Промежуточное хранение создается задача Промежуточное хранение в озере. Задачи Промежуточное хранение в озере выполняются и ведут себя по большей части как задачи Промежуточное хранение, за исключением того, что данные помещаются в облачное хранилище. Для получения дополнительной информации см. раздел Промежуточное хранение данных из источников данных.

Все файлы выгружаются в формате CSV. После обновления данных в промежуточном хранилище задача хранения, использующая задачу промежуточного хранения, будет обновлять внешние таблицы.

Просмотр информации о задаче

Нажмите Сведения на панели меню, чтобы просмотреть информацию о задаче, например:

Владелец
Пространство
Платформа данных
Идентификатор проекта
Идентификатор выполнения задачи данных

Настройки

Для получения дополнительной информации о параметрах задачи см. раздел Настройки промежуточного хранения в озере данных.

Ограничения

Данные промежуточного хранения не разделяются на блоки, так как задача хранения выполняется каждую минуту. Поэтому в настройках задачи нельзя изменить частоту разделения данных.
Хотя выгрузка данных из источников SaaS происходит по расписанию, задача хранения выполняется минимальными пакетами каждую минуту. Для этого необходим активный и самый дешевый кластер Lakehouse.
Если значение первичного ключа изменяется, записи с исходным ключом помечаются как удаленные, а строка, содержащая измененное значение ключа, помечается как «Вставка».

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь