Поток данных Apache Kafka
Подключитесь к кластеру Apache Kafka, чтобы использовать его в качестве потокового источника данных в ваших проектах Открытое озеро данных Qlik. Подключения Kafka можно использовать только с задачей промежуточного хранения потоков и задачей преобразования потоков.
Открытое озеро данных Qlik позволяет организациям создавать готовые к аналитике конвейеры в реальном времени на открытой и масштабируемой архитектуре. Интегрируя Apache Kafka в качестве потокового источника, Qlik поддерживает непрерывный прием больших объемов данных событий в таблицы Apache Iceberg. Эта комбинация обеспечивает доступность данных с низкой задержкой и надежную эволюцию схемы, позволяя командам операционализировать аналитические данные в реальном времени и ускорять последующие преобразования.
Задачи потокового промежуточного хранения и задачи потокового преобразования позволяют темам Kafka быть центральными компонентами ваших проектов Открытое озеро данных Qlik. По мере того как данные поступают в Iceberg, они быстро становятся доступными для аналитики, ИИ и рабочих нагрузок машинного обучения, поддерживая принятие решений, чувствительных ко времени, и масштабируемые практики инженерии данных. Результатом является унифицированный, оптимизированный для запросов слой данных, который повышает надежность и производительность ваших потоковых архитектур. Чтобы анализировать данные из Kafka с помощью механизма запросов вашего облачного хранилища данных, поместите и сохраните данные в Открытое озеро данных Qlik и зеркалируйте данные в ваше хранилище с помощью задачи зеркалирования данных.
Необходимые условия
Следующие требования применяются при создании и использовании источника потоковой передачи Kafka:
-
Сетевая интеграция, имеющая сетевое подключение к серверам брокера.
-
Убедитесь, что кластер Kafka, к которому вы хотите подключиться, доступен из VPC, где расположен кластер Lakehouse, который будет выполнять задачу промежуточного хранения.
-
Для подключения источника потоковой передачи Kafka требуется целевая платформа Открытое озеро данных Qlik.
Настройка свойств подключения Kafka
Чтобы настроить подключение Kafka, выполните следующие действия:
-
В виде Подключения нажмите Создать подключение.
-
Выберите Пространство, где вы хотите создать подключение, или выберите Создать новое пространство данных.
-
Выберите Kafka из списка Коннектор или используйте поле Поиск. Убедитесь, что Тип — Источник, а Категория — Потоковая передача.
-
Настройте следующие свойства:
Источник данных
Настройте свойства подключения к источнику данных следующим образом:
-
Выберите интеграцию сети из списка.
-
В серверах брокера введите один хост в формате hostname:port, например, host1:9092.
Чтобы ввести список хостов, используйте формат: hostname:port, hostname:port, например, host1:9092,host2:9092.
Сведения об аутентификации
-
Выберите метод проверки подлинности из списка:
-
SASL/SCRAM-SHA-512: Этот параметр выполняет аутентификацию с использованием имени пользователя и пароля с помощью механизма SCRAM-SHA-512. Это самый безопасный вариант SCRAM, требующий настройки соответствующих учетных данных SCRAM-SHA-512 в кластере Kafka.
-
:
SASL/SCRAM-SHA-256
Введите Имя пользователя и Пароль для вашего подключения.
TLS
При необходимости можно добавить центр сертификации (ЦС).
Чтобы добавить ЦС, выберите Использовать пользовательский доверенный ЦС.
В поле Путь к ЦС введите путь к файлу ЦС для загрузки в Qlik Cloud. Файл ЦС доступен кластерам, выполняющим задачи.
Дополнительные свойства Kafka
Дополнительные свойства Kafka необязательны.
Добавьте Ключ и Значение для тегов, которые будут использоваться для идентификации, организации и управления ресурсами.
Подключение к реестру схем
Сервер реестра схем необязателен.
Чтобы подключиться к реестру схем, нажмите Настроить сервер реестра схем и настройте параметры:
URI реестра схем: Введите URI в формате http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081.
Имя пользователя: Введите имя пользователя для подключения к серверу.
Пароль: Введите пароль для подключения к серверу.
TLS-подключение реестра схем
Если вы решите настроить сервер реестра схем, у вас есть возможность добавить центр сертификации (ЦС).
Чтобы добавить ЦС, выберите Использовать пользовательский доверенный ЦС.
В поле Путь к ЦС введите путь к файлу ЦС для загрузки в Qlik Cloud. Файл ЦС доступен кластерам, выполняющим задачи.
Создать подключение
После настройки метода безопасности выполните следующие действия, чтобы создать подключение:
В Имя введите отображаемое имя для подключения, например, My Kafka Streaming Source connection.
Нажмите Проверить подключение для проверки учетных данных.
Нажмите Создать.
Сопоставление разделов с наборами данных
Поддерживаются следующие варианты использования при приеме данных из источника Kafka:
| Тема | Целевой набор данных | Пример использования | Сопоставление |
|---|---|---|---|
| Один | Один | Каждая тема загружается в целевой набор данных. | Поддерживается при сопоставлении наборов данных в задаче потокового промежуточного хранения. |
| Один | Много | Дублировать тему в несколько наборов данных. | Поддерживается путем многократного использования Добавить в цель. |
| Один | Много | Разделить событие на несколько целей. Например, событие содержит orders и order lines, которые разделены на несколько наборов данных. | Поддерживается в задаче потокового преобразования. Дублируйте набор данных и выберите различные поля в каждом наборе данных; или используйте процессор ветвления и процессор выбора столбцов в рамках потока преобразования. |
| Один | Многие | Разделите тему на несколько наборов данных на основе определенных значений столбцов. | Поддерживается в задаче потокового преобразования. Настройте процессор фильтрации для каждого значения столбца, используемого для разделения темы на разные наборы данных. Для обработки несопоставленных записей настройте дополнительный процессор фильтрации, который выводит несопоставленные данные в отдельный набор данных. |
| Много | Один | Принимать все темы, соответствующие определенным критериям, в один и тот же целевой набор данных или определенные темы в один и тот же набор данных. | Поддерживается в сопоставлении наборов данных задачи промежуточного хранения потоковой передачи. Если несколько тем загружаются в один набор данных и одна из задач загрузки тем завершается сбоем, то набор данных выдает ошибку, и загрузка других тем прекращается. |