Архитектура Открытое озеро данных Qlik

Открытое озеро данных Qlik предоставляет полностью управляемое комплексное решение в Qlik Talend Cloud для приема, обработки и оптимизации данных в lakehouse на базе Iceberg. Это решение обеспечивает низкую задержку при выполнении запросов и эффективные операции с данными в любом масштабе.

Архитектура Открытое озеро данных Qlik сочетает в себе безопасную связь, масштабируемые вычисления и эффективную обработку данных для обеспечения современного опыта работы с lakehouse. Открытое озеро данных Qlik использует собственные компоненты AWS, включая EC2 и S3.

Основные компоненты

Для создания Открытое озеро данных Qlik требуются следующие сущности.

Шлюз перемещения данных (CDC)

Шлюз перемещения данных работает в вашей локальной или облачной среде. Он фиксирует изменения из исходных систем, таких как СУБД, SAP или мейнфреймы, и отправляет данные в зону промежуточного хранения Amazon S3. Это не требуется для потоковых источников.

Агент сетевой интеграции (экземпляр EC2)

Агент сетевой интеграции — это экземпляр EC2, который обеспечивает безопасную связь между сервисами Qlik в облаке и кластерами lakehouse в вашей среде. Агент автоматически развертывается как экземпляр по требованию (On-Demand Instance) в процессе сетевой интеграции и полностью управляется Qlik. Новые версии развертываются автоматически при выпуске.

Если сетевая интеграция работает правильно, в представлении Кластеры Lakehouse в центре активности «Администрирование» отображается статус Подключено. Статус меняется на Отключено при возникновении проблем с подключением.

Кластер Lakehouse (группа автоматического масштабирования EC2)

Кластер lakehouse — это группа экземпляров AWS EC2, отвечающих за обработку данных. Экземпляры кластера координируют и выполняют рабочие нагрузки для обработки входящих данных из зоны промежуточного хранения и после обработки сохраняют данные в целевом местоположении в формате Iceberg.

Кластер lakehouse с одним спотовым экземпляром AWS (Spot Instance) автоматически создается во время настройки сетевой интеграции. Вы можете управлять и создавать дополнительные кластеры для поддержки текущих требований lakehouse. При настройке кластера вы предоставляете Qlik разрешение на создание, запуск, остановку, масштабирование или откат серверов для выполнения требований к обработке данных. Каждый кластер связан с одной сетевой интеграцией, хотя в рамках одной сетевой интеграции может работать несколько кластеров. Один кластер может выполнять множество задач lakehouse.

Спотовый экземпляр AWS использует резервные мощности Amazon EC2 по более низкой цене, чем обычные экземпляры, но может быть прерван AWS с коротким уведомлением. По умолчанию Qlik предоставляет эфемерные спотовые экземпляры для обработки данных. Если на спотовом рынке AWS недостаточно доступных спотовых экземпляров, Qlik автоматически использует экземпляры по требованию (On-Demand Instances) для обеспечения непрерывности. Система возвращается к спотовым экземплярам, когда они становятся доступными. Технология кластера lakehouse разработана для плавного перехода между спотовыми экземплярами и экземплярами по требованию, перемещая задания между узлами. Этот процесс происходит автоматически, не требуя ручного вмешательства. В настройках кластера можно настроить, сколько спотовых экземпляров и экземпляров по требованию должно использоваться в кластере. Использование спотовых экземпляров помогает снизить текущие затраты на вычисления для вашего Открытое озеро данных Qlik.

Помимо определения количества используемых спотовых экземпляров и экземпляров по требованию, вы можете настроить стратегию масштабирования, которая наилучшим образом соответствует рабочей нагрузке и бюджету вашего проекта. К кластеру могут быть применены следующие стратегии масштабирования:

Низкая стоимость: Идеально подходит для сред разработки или контроля качества, а также для рабочих нагрузок, которые не зависят от свежих данных в реальном времени. Qlik стремится поддерживать стоимость на минимально возможном уровне, что приводит к периодическим периодам высокой задержки.
Низкая задержка: Предназначено для некритичных рабочих нагрузок, где приемлема свежесть данных, близкая к реальному времени. Хотя эта стратегия направлена на низкую задержку, могут наблюдаться кратковременные всплески.
Стабильно низкая задержка: Подходит для производственных сред с крупномасштабными данными, которые должны иметь свежесть данных в реальном времени. Qlik упреждающе масштабирует экземпляры для обеспечения низкой задержки, что может повлечь за собой более высокие затраты.
Без масштабирования: Хороший вариант для рабочих нагрузок, обрабатывающих постоянный объем данных. Выберите этот вариант, чтобы сохранить статическое количество экземпляров без автоматического масштабирования и с предсказуемыми затратами.

Блоки Amazon S3

Блоки Amazon S3 используются следующим образом:

Блок данных промежуточного хранения: Необработанные данные CDC попадают в блок S3 перед преобразованием.
Блок конфигурации: Хранит метаданные и конфигурации, используемые системой lakehouse.
Хранилище таблиц Iceberg: Данные хранятся и оптимизируются в таблицах формата Iceberg. Используемый блок определяется подключением к каталогу проекта.

Высокоуровневый поток

Начальная настройка

Предоставление VPC и инфраструктуры — Настройте VPC в вашей учетной записи AWS вместе с подсетями, блоками S3 и ролями IAM, следуя инструкциям в документации Qlik.
Настройка сетевой интеграции — Администратор клиента создает сетевую интеграцию в Qlik Talend Cloud, используя сведения о ранее предоставленной инфраструктуре.
Развертывание компонентов Qlik — Qlik автоматически предоставляет шлюз плоскости данных и кластер lakehouse в вашей VPC.
Установка связи — Шлюз плоскости данных безопасно устанавливает связь с Qlik Talend Cloud.
Развертывание шлюза — Разверните шлюз перемещения данных (CDC) локально или в вашей облачной среде, включая VPC плоскости данных.
Готовность к работе — По завершении настройки вы можете создавать проекты и задачи Открытое озеро данных Qlik и управлять ими в соответствии с их правами доступа.

Создание проекта Открытое озеро данных Qlik

Доступны следующие типы задач:

Задача промежуточного хранения данных

Настройка источника — Шлюз перемещения данных настроен на сбор изменений из исходных систем, включая СУБД, SAP, мейнфреймы и другие.
Промежуточное хранение данных — Задача CDC непрерывно отправляет необработанные данные об изменениях в назначенный блок промежуточного хранения S3 в вашей учетной записи AWS.

Задача хранения данных

Зарегистрируйте подключение к каталогу Iceberg, например, AWS Glue Data Catalog.
Определите задачу хранения в Qlik Talend Cloud.
Qlik Talend Cloud отправляет определения задач на шлюз плоскости данных.
Шлюз плоскости данных безопасно пересылает инструкции задачи в кластер lakehouse Qlik.
Кластер непрерывно считывает необработанные данные из блока промежуточного хранения в S3, обрабатывает их и записывает результат в таблицы Iceberg в S3.
Кластер lakehouse автоматически масштабируется в большую или меньшую сторону в зависимости от нагрузки в соответствии с предварительно заданными предпочтениями в настройках кластера lakehouse.
Данные мониторинга отправляются в Qlik Talend Cloud, а журналы и метрики пересылаются в Qlik.

Задача зеркалирования данных

Вы можете создавать внешние таблицы Iceberg, чтобы разрешить выполнение запросов к данным, хранящимся в вашем озере данных, из вашего облачного хранилища данных без дублирования. Это позволяет использовать аналитический механизм хранилища данных поверх данных, управляемых Iceberg, которые хранятся в таких форматах, как Parquet, на S3. Ссылка на внешние таблицы вместо дублирования данных в хранилище данных снижает затраты на хранение, поддерживает единый источник достоверных данных и обеспечивает согласованность между средами lakehouse и хранилища.

Связь между вашей сетевой интеграцией и Qlik Talend Cloud

Сетевая интеграция устанавливает исходящее защищенное подключение (HTTPS) к Qlik Talend Cloud. После успешного принятия подключение преобразуется в защищенный веб-сокет (WSS). Между сетевой интеграцией и Qlik Talend Cloud устанавливается дополнительный выделенный канал связи (WSS) для получения команд и элементов управления задачами, специфичными для lakehouse. Периодически сетевая интеграция устанавливает безопасное подключение (HTTPS) к Qlik Talend Cloud для получения и отправки событий, связанных с данными. Метрики и журналы отправляются в Qlik из кластеров lakehouse.

Для обеспечения безопасности ваших данных принимаются следующие меры:

Все подключения от вашей сетевой интеграции к Qlik Talend Cloud являются исходящими. Входящий доступ не требуется.
Метаданные, команды и запросы на управление передаются по каналам связи, защищенным с помощью HTTPS, создавая дополнительный слой шифрования между сетевой интеграцией и Qlik Talend Cloud.
Все потоки данных проходят между принадлежащими вам ресурсами. Данные никогда не отправляются в Qlik Talend Cloud. Метаданные, такие как имена таблиц и столбцов, например, отправляются в Qlik Talend Cloud для возможности определения задач.
Данные анонимизируются перед отправкой в Qlik. Qlik использует анонимизированные данные для упреждающей поддержки в случае, если журналы или метрики указывают на проблему.

Архитектура набора данных

Архитектура набора данных в проекте конвейера Открытое озеро данных Qlik определяется источником данных. Для получения дополнительной информации см. следующее:

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь