Выгрузка потоковых данных в Открытое озеро данных Qlik
Вы можете выгружать данные из потокового источника в Amazon S3, готовые для задачи Streaming Transform, чтобы преобразовать их в открытый формат таблиц Iceberg.
Для промежуточного хранения потоковых данных в Открытое озеро данных Qlik необходимо настроить блок Amazon S3. Открытое озеро данных Qlik специально оптимизирован для источников данных с большим объемом и совместим со всеми потоковыми источниками данных, поддерживаемыми Qlik. Для получения дополнительной информации о поддерживаемых потоковых источниках см. Подключение к потокам данных.
Необработанные данные поступают в формате Avro в S3, а задача Streaming Transform преобразует данные в формат Iceberg. Спецификация Iceberg позволяет выполнять запросы к данным из любого движка, который напрямую поддерживает Trino SQL — например, Amazon Athena, Ahana или Starburst Enterprise. При необходимости таблицы могут быть зеркально отображены в ваше облачное хранилище данных, где к ним можно будет выполнять запросы без дублирования данных.
Подготовка
-
Убедитесь, что вы настроили Открытое озеро данных Qlik. Это включает создание сетевой интеграции, кластера lakehouse, а также исходных и целевых подключений. Для получения дополнительной информации см. раздел Настройка Открытое озеро данных Qlik.
-
Чтобы зеркально отобразить данные в ваше облачное хранилище данных, необходимо сначала создать проект Открытое озеро данных Qlik для приема данных и их хранения в формате открытых таблиц Iceberg. Вы можете добавить задачу зеркального отображения данных после задачи потоковой трансформации. Для получения дополнительной информации см. раздел Зеркальное отображение данных в облачное хранилище данных.
Создание задачи потокового промежуточного хранения
Чтобы создать задачу потокового промежуточного хранения, выполните следующие действия для создания проекта:
-
Создайте проект и выберите Конвейер данных в поле Пример использования.
-
Выберите Открытое озеро данных Qlik в поле Платформа данных и подключитесь к каталогу данных.
-
Настройте область хранения в разделе Подключение к цели промежуточного хранения.
-
Нажмите кнопку Создать, чтобы создать проект.
При подключении данных или создании задачи промежуточного хранения в проекте, вместо задачи Промежуточное хранение создается задача Потоковое промежуточное хранение. Задачи потокового промежуточного хранения работают и ведут себя аналогично задаче Промежуточное хранение, за исключением того, что они помещают данные в облачное хранилище из потоковых источников. Для получения дополнительной информации см. раздел Подключение к потокам данных.
Все файлы выгружаются в формате Avro. После обновления данных промежуточного хранения задача Потоковое преобразование использует эти данные и обновляет внешние таблицы.
Просмотр информации о задаче
Нажмите на панели меню, чтобы просмотреть информацию о задаче, например:
-
Владелец
-
Пространство
-
Платформа данных
-
Идентификатор проекта
-
Идентификатор выполнения задачи данных
Операции
Следующие операции доступны в задаче потокового промежуточного хранения:
-
Отбрасывание столбца
Выберите столбец и нажмите Удалить.
Это добавит правило преобразования, которое удаляет столбец из вновь загруженных данных после подготовки и запуска задачи. Вы можете восстановить столбец для новых записей, удалив правило преобразования.
-
Хеширование столбца, например для маскировки конфиденциальной информации.
Выберите Хэш в столбце.
Это сгенерирует хэш SHA-256 входного столбца после объединения его со строкой соли хэша. Строка соли хэша является параметром проекта, доступным в Открытое озеро данных Qlik проектах.
Тип данных изменяется на String, когда столбец хэшируется. Если вы хотите сохранить нехэшированные данные также для привилегированных пользователей, выполните хэширование позже в задаче преобразования.
-
Фильтрация данных
Для получения дополнительной информации см. раздел Фильтрация набора данных.
-
Переименование набора данных
Щелкните
на наборе данных и выберите Переименовать.
Настройки
Для получения дополнительной информации о параметрах задачи см. раздел Настройки потокового промежуточного хранения в озере