Перейти к основному содержимому Перейти к дополнительному содержимому

Выгрузка потоковых данных в Открытое озеро данных Qlik

Вы можете выгружать данные из потокового источника в Amazon S3, готовые для задачи Streaming Transform, чтобы преобразовать их в открытый формат таблиц Iceberg.

Для промежуточного хранения потоковых данных в Открытое озеро данных Qlik необходимо настроить блок Amazon S3. Открытое озеро данных Qlik специально оптимизирован для источников данных с большим объемом и совместим со всеми потоковыми источниками данных, поддерживаемыми Qlik. Для получения дополнительной информации о поддерживаемых потоковых источниках см. Подключение к потокам данных.

Необработанные данные поступают в формате Avro в S3, а задача Streaming Transform преобразует данные в формат Iceberg. Спецификация Iceberg позволяет выполнять запросы к данным из любого движка, который напрямую поддерживает Trino SQL — например, Amazon Athena, Ahana или Starburst Enterprise. При необходимости таблицы могут быть зеркально отображены в ваше облачное хранилище данных, где к ним можно будет выполнять запросы без дублирования данных.

Подготовка

  • Убедитесь, что вы настроили Открытое озеро данных Qlik. Это включает создание сетевой интеграции, кластера lakehouse, а также исходных и целевых подключений. Для получения дополнительной информации см. раздел Настройка Открытое озеро данных Qlik.

  • Чтобы зеркально отобразить данные в ваше облачное хранилище данных, необходимо сначала создать проект Открытое озеро данных Qlik для приема данных и их хранения в формате открытых таблиц Iceberg. Вы можете добавить задачу зеркального отображения данных после задачи потоковой трансформации. Для получения дополнительной информации см. раздел Зеркальное отображение данных в облачное хранилище данных.

Создание задачи потокового промежуточного хранения

Чтобы создать задачу потокового промежуточного хранения, выполните следующие действия для создания проекта:

  1. Создайте проект и выберите Конвейер данных в поле Пример использования.

  2. Выберите Открытое озеро данных Qlik в поле Платформа данных и подключитесь к каталогу данных.

  3. Настройте область хранения в разделе Подключение к цели промежуточного хранения.

  4. Нажмите кнопку Создать, чтобы создать проект.

При подключении данных или создании задачи промежуточного хранения в проекте, вместо задачи Промежуточное хранение создается задача Потоковое промежуточное хранение. Задачи потокового промежуточного хранения работают и ведут себя аналогично задаче Промежуточное хранение, за исключением того, что они помещают данные в облачное хранилище из потоковых источников. Для получения дополнительной информации см. раздел Подключение к потокам данных.

Все файлы выгружаются в формате Avro. После обновления данных промежуточного хранения задача Потоковое преобразование использует эти данные и обновляет внешние таблицы.

Просмотр информации о задаче

Нажмите Сведения на панели меню, чтобы просмотреть информацию о задаче, например:

  • Владелец

  • Пространство

  • Платформа данных

  • Идентификатор проекта

  • Идентификатор выполнения задачи данных

Операции

Следующие операции доступны в задаче потокового промежуточного хранения:

  • Отбрасывание столбца

    Выберите столбец и нажмите Удалить.

    Это добавит правило преобразования, которое удаляет столбец из вновь загруженных данных после подготовки и запуска задачи. Вы можете восстановить столбец для новых записей, удалив правило преобразования.

  • Хеширование столбца, например для маскировки конфиденциальной информации.

    Выберите Хэш в столбце.

    Это сгенерирует хэш SHA-256 входного столбца после объединения его со строкой соли хэша. Строка соли хэша является параметром проекта, доступным в Открытое озеро данных Qlik проектах.

    Тип данных изменяется на String, когда столбец хэшируется. Если вы хотите сохранить нехэшированные данные также для привилегированных пользователей, выполните хэширование позже в задаче преобразования.

  • Фильтрация данных

    Для получения дополнительной информации см. раздел Фильтрация набора данных.

  • Переименование набора данных

    Щелкните Дополнительно на наборе данных и выберите Переименовать.

Настройки

Для получения дополнительной информации о параметрах задачи см. раздел Настройки потокового промежуточного хранения в озере

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!