Выгрузка потоковых данных в Открытое озеро данных Qlik
Данные выгружаются в Amazon S3, готовыми к задаче Streaming Transform для преобразования их в формат открытых таблиц Iceberg. Можно выгрузить данные из любого потокового источника, поддерживаемого Qlik.
Для промежуточного хранения потоковых данных в Открытое озеро данных Qlik необходимо настроить блок Amazon S3. Открытое озеро данных Qlik специально оптимизирован для источников данных с большим объемом и совместим со всеми потоковыми источниками данных, поддерживаемыми Qlik. Для получения дополнительной информации о поддерживаемых источниках потоковой передачи см. Подключение к потокам данных.
Необработанные данные поступают в формате Avro в S3, а задача Streaming Transform преобразует данные в формат Iceberg. Спецификация Iceberg позволяет выполнять запросы к данным из любого движка, который напрямую поддерживает Trino SQL — например, Amazon Athena, Ahana или Starburst Enterprise. При необходимости таблицы могут быть зеркально отображены в ваше облачное хранилище данных, где к ним можно будет выполнять запросы без дублирования данных.
Промежуточное хранение данных в Открытое озеро данных Qlik доступно в проектах, где в качестве цели используется AWS Glue Data Catalog.
Подготовка
-
Для выполнения приема данных требуется кластер хранилища lakehouse, который необходимо настроить до создания проекта.
-
Хотя вы можете настроить параметры подключения источника и цели в мастере настройки, для упрощения процедуры настройки рекомендуется сделать это до создания задачи.
-
Чтобы зеркально отобразить данные в ваше облачное хранилище данных, необходимо сначала создать проект Открытое озеро данных Qlik для приема данных и их хранения в формате открытых таблиц Iceberg. Вы можете добавить задачу зеркального отображения данных после задачи потоковой трансформации. Для получения дополнительной информации см. раздел Зеркальное отображение данных в облачное хранилище данных.
Создание задачи потокового промежуточного хранения
Чтобы создать задачу потокового промежуточного хранения, выполните следующие действия для создания проекта:
-
Создайте проект и выберите Конвейер данных в поле Пример использования.
-
Выберите Открытое озеро данных Qlik в поле Платформа данных и подключитесь к каталогу данных.
-
Настройте область хранения в разделе Подключение к цели промежуточного хранения.
-
Выберите кластер Storage lakehouse для приема и оптимизации данных.
-
Нажмите кнопку Создать, чтобы создать проект.
При подключении данных или создании задачи промежуточного хранения в проекте, вместо задачи Промежуточное хранение создается задача Потоковое промежуточное хранение. Задачи потокового промежуточного хранения работают и ведут себя аналогично задаче Промежуточное хранение, за исключением того, что они помещают данные в облачное хранилище из потоковых источников. Для получения дополнительной информации см. раздел Подключение к потокам данных.
Все файлы выгружаются в формате Avro. После обновления данных промежуточного хранения задача Потоковое преобразование использует эти данные и обновляет внешние таблицы.
Настройки
Для получения дополнительной информации о параметрах задачи см. раздел Настройки потокового промежуточного хранения в озере