Apache Kafka 数据流

连接到您的 Apache Kafka 集群，在您的 Qlik Open Lakehouse 项目中用作流式数据源。Kafka 连接只能与流式登陆任务和流式转换任务一起使用。

Qlik Open Lakehouse 使组织能够在开放且可扩展的架构上构建实时、可用于分析的管道。通过将 Apache Kafka 集成作为流式源，Qlik 支持将大容量事件数据持续摄取到 Apache Iceberg 表中。这种组合提供了低延迟的数据可用性和强大的模式演进能力，使团队能够将实时洞察投入运营并加速下游转换。

流式登陆任务和流式转换任务使 Kafka 主题成为您的 Qlik Open Lakehouse 项目的核心组件。当数据流式传输到 Iceberg 时，它可以快速用于分析、AI 和机器学习工作负载，支持时间敏感的决策制定和可扩展的数据工程实践。结果是一个统一的、查询优化的数据层，可增强流式架构的可靠性和性能。要使用云数据仓库查询引擎分析 Kafka 中的数据，请将数据登陆并存储在 Qlik Open Lakehouse 中，然后使用镜像数据任务将数据镜像到您的仓库。

先决条件

创建和使用 Kafka 数据流源时，适用以下要求：

与代理服务器具有网络连接的网络集成。
确保您要连接的 Kafka 集群可从将运行登陆任务的 Lakehouse 集群所在的 VPC 访问。
Kafka 数据流源连接需要 Qlik Open Lakehouse 目标平台。

设置 Kafka 连接属性

要配置您的 Kafka 连接，请执行以下操作：

在连接中单击创建连接。
选择要创建连接的空间，或选择创建新数据空间。
从连接器名称列表中选择 Kafka，或使用搜索框。确保类型为源，类别为流式传输。
配置以下属性：

数据源

按如下方式设置数据源连接属性：

从列表中选择您的网络集成。
在代理服务器中，使用格式hostname:port输入单个主机，例如host1:9092。

要输入主机列表，请使用以下格式：hostname:port, hostname:port，例如host1:9092,host2:9092。

身份验证详细信息

从列表中选择您的身份验证方法：
- SASL/SCRAM-SHA-512：此选项使用SCRAM-SHA-512机制通过用户名和密码进行身份验证。这是最安全的SCRAM变体，需要将匹配的SCRAM-SHA-512凭据配置在Kafka集群中。

要使用未列出的替代身份验证方法，请联系Qlik支持。

：

SASL/SCRAM-SHA-256

输入您的用户名和密码以建立连接。

TLS

您可以选择添加证书颁发机构 (CA)。

要添加 CA，请选择使用自定义信任 CA。
在CA 路径中，输入要上传到Qlik Cloud的 CA 文件的路径。CA 文件可供运行任务的集群使用。

附加 Kafka 属性

附加 Kafka 属性是可选的。

为您想包含的任何标签添加键和值，以帮助您识别、组织和管理资源。

Schema 注册表连接

Schema 注册表服务器是可选的。

要连接到 Schema 注册表，请单击设置 Schema 注册表服务器并配置以下设置：

模式注册表 URI：输入 URI，格式为 http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081。
用户名：输入服务器连接的用户名。
密码：输入服务器连接的密码。

模式注册表连接 TLS

如果您选择配置模式注册表服务器，您可以选择添加证书颁发机构 (CA)。

要添加 CA，请选择使用自定义信任 CA。
在 CA 路径中，输入要上传到 Qlik Cloud 的 CA 文件的路径。CA 文件可供运行任务的群集使用。

创建连接

配置安全方法后，请完成以下步骤以创建连接：

在名称中，输入连接的显示名称，例如，My Kafka Streaming Source connection。
单击测试连接以验证凭据。
单击创建。

将主题映射到数据集

从 Kafka 源摄取时支持以下用例：

主题	目标数据集	使用案例	映射
一	一	每个主题都加载到目标数据集。	在流式登陆任务的数据集映射中支持。
一	多	将主题复制到多个数据集。	通过多次使用添加到目标来支持。
一	多	将事件拆分到多个目标。例如，一个事件包含 orders 和 order lines，它们被拆分到多个数据集中。	在流式转换任务中受支持。复制数据集并在每个数据集中选择不同的字段；或者在转换流中使用分叉处理器和选择列处理器。
一	许多	根据特定的列值将主题拆分为多个数据集。	在流式转换任务中支持。针对用于将主题拆分为不同数据集的每个列值，配置一个筛选器处理器。为了处理不匹配的记录，配置一个额外的筛选器处理器，将不匹配的数据输出到单独的数据集。
多个	一个	将所有符合特定条件的主题摄取到同一目标数据集，或将特定主题摄取到同一数据集。	在流式登陆任务的数据集映射中受支持。如果将多个主题加载到单个数据集中，并且其中一个主题加载任务失败，则数据集将出错，并且其他主题的加载将中断。

本页面有帮助吗？

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！

在此处留下您的反馈