Apache Kafka 数据流
连接到您的 Apache Kafka 集群,在您的 Qlik Open Lakehouse 项目中用作流式数据源。Kafka 连接只能与流式登陆任务和流式转换任务一起使用。
Qlik Open Lakehouse 使组织能够在开放且可扩展的架构上构建实时、可用于分析的管道。通过将 Apache Kafka 集成作为流式源,Qlik 支持将大容量事件数据持续摄取到 Apache Iceberg 表中。这种组合提供了低延迟的数据可用性和强大的模式演进能力,使团队能够将实时洞察投入运营并加速下游转换。
流式登陆任务和流式转换任务使 Kafka 主题成为您的 Qlik Open Lakehouse 项目的核心组件。当数据流式传输到 Iceberg 时,它可以快速用于分析、AI 和机器学习工作负载,支持时间敏感的决策制定和可扩展的数据工程实践。结果是一个统一的、查询优化的数据层,可增强流式架构的可靠性和性能。要使用云数据仓库查询引擎分析 Kafka 中的数据,请将数据登陆并存储在 Qlik Open Lakehouse 中,然后使用 镜像数据任务 将数据镜像到您的仓库。
先决条件
创建和使用 Kafka 数据流源时,适用以下要求:
-
与代理服务器具有网络连接的网络集成。
-
确保您要连接的 Kafka 集群可从将运行登陆任务的 Lakehouse 集群所在的 VPC 访问。
-
Kafka 数据流源连接需要 Qlik Open Lakehouse 目标平台。
设置 Kafka 连接属性
要配置您的 Kafka 连接,请执行以下操作:
-
在连接中单击创建连接。
-
选择要创建连接的 空间,或选择 创建新数据空间。
-
从 连接器 名称列表中选择 Kafka,或使用 搜索 框。确保 类型 为 源,类别 为 流式传输。
-
配置以下属性:
数据源
按如下方式设置数据源连接属性:
-
从列表中选择您的网络集成。
-
在代理服务器中,使用格式hostname:port输入单个主机,例如host1:9092。
要输入主机列表,请使用以下格式:hostname:port, hostname:port,例如host1:9092,host2:9092。
身份验证详细信息
-
从列表中选择您的身份验证方法:
-
SASL/SCRAM-SHA-512:此选项使用SCRAM-SHA-512机制通过用户名和密码进行身份验证。这是最安全的SCRAM变体,需要将匹配的SCRAM-SHA-512凭据配置在Kafka集群中。
-
:
SASL/SCRAM-SHA-256
输入您的用户名和密码以建立连接。
TLS
您可以选择添加证书颁发机构 (CA)。
要添加 CA,请选择使用自定义信任 CA。
在CA 路径中,输入要上传到Qlik Cloud的 CA 文件的路径。CA 文件可供运行任务的集群使用。
附加 Kafka 属性
附加 Kafka 属性是可选的。
为您想包含的任何标签添加键和值,以帮助您识别、组织和管理资源。
Schema 注册表连接
Schema 注册表服务器是可选的。
要连接到 Schema 注册表,请单击设置 Schema 注册表服务器并配置以下设置:
模式注册表 URI:输入 URI,格式为 http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081。
用户名:输入服务器连接的用户名。
密码:输入服务器连接的密码。
模式注册表连接 TLS
如果您选择配置模式注册表服务器,您可以选择添加证书颁发机构 (CA)。
要添加 CA,请选择 使用自定义信任 CA。
在 CA 路径 中,输入要上传到 Qlik Cloud 的 CA 文件的路径。CA 文件可供运行任务的群集使用。
创建连接
配置安全方法后,请完成以下步骤以创建连接:
在 名称 中,输入连接的显示名称,例如,My Kafka Streaming Source connection。
单击 测试连接 以验证凭据。
单击创建。
将主题映射到数据集
从 Kafka 源摄取时支持以下用例:
| 主题 | 目标数据集 | 使用案例 | 映射 |
|---|---|---|---|
| 一 | 一 | 每个主题都加载到目标数据集。 | 在流式登陆任务的数据集映射中支持。 |
| 一 | 多 | 将主题复制到多个数据集。 | 通过多次使用添加到目标来支持。 |
| 一 | 多 | 将事件拆分到多个目标。例如,一个事件包含 orders 和 order lines,它们被拆分到多个数据集中。 | 在流式转换任务中受支持。复制数据集并在每个数据集中选择不同的字段;或者在转换流中使用分叉处理器和选择列处理器。 |
| 一 | 许多 | 根据特定的列值将主题拆分为多个数据集。 | 在流式转换任务中支持。针对用于将主题拆分为不同数据集的每个列值,配置一个筛选器处理器。为了处理不匹配的记录,配置一个额外的筛选器处理器,将不匹配的数据输出到单独的数据集。 |
| 多个 | 一个 | 将所有符合特定条件的主题摄取到同一目标数据集,或将特定主题摄取到同一数据集。 | 在流式登陆任务的数据集映射中受支持。如果将多个主题加载到单个数据集中,并且其中一个主题加载任务失败,则数据集将出错,并且其他主题的加载将中断。 |