Промежуточное хранение потоковых данных в Открытое озеро данных Qlik
Можно выполнять промежуточное хранение данных из потокового источника в Amazon S3, чтобы задача Streaming Transform (Потоковое преобразование) могла преобразовать их в формат открытых таблиц Iceberg.
Для промежуточного хранения потоковых данных в Открытое озеро данных Qlik требуется предварительно настроенный блок Amazon S3. Открытое озеро данных Qlik специально оптимизирован для источников данных большого объема и совместим со всеми потоковыми источниками данных, поддерживаемыми Qlik. Для получения дополнительной информации о поддерживаемых потоковых источниках см. Подключение к потокам данных.
Необработанные данные помещаются на промежуточное хранение в формате Avro в S3, а задача Streaming Transform преобразует данные в формат Iceberg. Спецификация Iceberg позволяет запрашивать данные из любого механизма, который изначально поддерживает Trino SQL, например Amazon Athena, Ahana или Starburst Enterprise. При необходимости таблицы можно зеркалировать в облачное хранилище данных, где их можно запрашивать без дублирования данных.
Подготовка
-
Убедитесь, что настроен Открытое озеро данных Qlik. Это включает создание сетевой интеграции, кластера lakehouse, а также подключений к источнику и целевой базе данных. Для получения дополнительной информации см. Настройка Открытое озеро данных Qlik.
-
Чтобы зеркалировать данные в облачное хранилище данных, необходимо сначала создать проект Открытое озеро данных Qlik для приема данных и их хранения с использованием формата открытых таблиц Iceberg. Можно добавить задачу Mirror data (Зеркалирование данных) после задачи Streaming Transformation (Потоковое преобразование). Для получения дополнительной информации см. Зеркальное копирование данных в облачное хранилище данных.
Создание задачи потокового промежуточного хранения
Чтобы создать задачу потокового промежуточного хранения, выполните следующие действия для первоначального создания проекта:
-
Создайте проект и выберите Конвейер данных в разделе Вариант использования.
-
Выберите Открытое озеро данных Qlik в разделе Платформа данных и установите подключение к каталогу данных.
-
Настройте область хранения в разделе Целевое подключение для промежуточного хранения.
-
Нажмите Создать, чтобы создать проект.
При загрузке данных или создании задачи промежуточного хранения в проекте создается Задача потокового промежуточного хранения вместо задачи Промежуточное хранение. Задачи потокового промежуточного хранения работают и ведут себя аналогично задаче Промежуточное хранение, за исключением того, что они выполняют промежуточное хранение данных в облачное хранилище из потоковых источников. Для получения дополнительной информации см. Подключение к потокам данных.
Все файлы помещаются на промежуточное хранение в формате Avro. После обновления данных промежуточного хранения Задача потокового преобразования потребляет данные промежуточного хранения и обновляет внешние таблицы.
Просмотр информации о задаче
Нажмите на панели меню, чтобы просмотреть информацию о задаче, например:
-
Владелец
-
Пространство
-
Платформа данных
-
Идентификатор проекта
-
Идентификатор выполнения задачи данных
Операции
В задаче потокового промежуточного хранения доступны следующие операции:
-
Удаление столбца
Выберите столбец и нажмите Удалить.
Это добавит правило преобразования, которое удаляет столбец из вновь загруженных данных после подготовки и запуска задачи. Можно восстановить столбец для новых записей, удалив правило преобразования.
-
Хеширование столбца, например, для маскировки конфиденциальной информации.
Выберите Хешировать в столбце.
Это сгенерирует хеш SHA-256 входного столбца после его объединения со строкой соли хеша. Строка соли хеша задается в настройках проекта в разделе Метаданные > Хеш. Эта настройка доступна только в проектах Открытое озеро данных Qlik. Для получения дополнительной информации см. Метаданные
Тип данных изменяется на String (Строка) при хешировании столбца. Если необходимо сохранить нехешированные данные также для привилегированных пользователей, выполните хеширование позже в задаче Transform (Преобразование).
-
Фильтрация данных
Для получения дополнительной информации см. Фильтрация набора данных.
-
Переименование набора данных
Нажмите
на наборе данных и выберите Переименовать.
Удаление задачи
Вы можете удалить задачу данных, если она не запущена и нет зависимостей от последующих задач в том же проекте.
-
В представлении проекта конвейера проекта нажмите
на задаче и выберите Удалить.
Артефакты (таблицы и виды), созданные задачей, также будут удалены, если вы не выберете их сохранение.
Настройки
Для получения дополнительной информации о настройках задачи см. Настройки потокового промежуточного хранения в озере