跳到主要内容 跳到补充内容

Apache Kafka 数据流

连接到您的 Apache Kafka 集群,在您的 Qlik Open Lakehouse 项目中用作流式数据源。Kafka 连接只能与流式登陆任务和流式转换任务一起使用。

Qlik Open Lakehouse 使组织能够在开放且可扩展的架构上构建实时、可用于分析的管道。通过将 Apache Kafka 集成作为流式源,Qlik 支持将大容量事件数据持续摄取到 Apache Iceberg 表中。这种组合提供了低延迟的数据可用性和强大的模式演进能力,使团队能够将实时洞察投入运营并加速下游转换。

流式登陆任务和流式转换任务使 Kafka 主题成为您的 Qlik Open Lakehouse 项目的核心组件。当数据流式传输到 Iceberg 时,它可以快速用于分析、AI 和机器学习工作负载,支持时间敏感的决策制定和可扩展的数据工程实践。结果是一个统一的、查询优化的数据层,可增强流式架构的可靠性和性能。要使用云数据仓库查询引擎分析 Kafka 中的数据,请将数据登陆并存储在 Qlik Open Lakehouse 中,然后使用 镜像数据任务 将数据镜像到您的仓库。

先决条件

创建和使用 Kafka 数据流源时,适用以下要求:

  • 与代理服务器具有网络连接的网络集成。

  • 确保您要连接的 Kafka 集群可从将运行登陆任务的 Lakehouse 集群所在的 VPC 访问。

  • Kafka 数据流源连接需要 Qlik Open Lakehouse 目标平台。

设置 Kafka 连接属性

要配置您的 Kafka 连接,请执行以下操作:

  1. 连接中单击创建连接

  2. 选择要创建连接的 空间,或选择 创建新数据空间

  3. 连接器 名称列表中选择 Kafka,或使用 搜索 框。确保 类型类别流式传输

  4. 配置以下属性:

数据源

按如下方式设置数据源连接属性:

  • 从列表中选择您的网络集成

  • 代理服务器中,使用格式hostname:port输入单个主机,例如host1:9092

    要输入主机列表,请使用以下格式:hostname:port, hostname:port,例如host1:9092,host2:9092

身份验证详细信息

  • 从列表中选择您的身份验证方法

    • SASL/SCRAM-SHA-512:此选项使用SCRAM-SHA-512机制通过用户名和密码进行身份验证。这是最安全的SCRAM变体,需要将匹配的SCRAM-SHA-512凭据配置在Kafka集群中。

信息注释要使用未列出的替代身份验证方法,请联系Qlik支持。

SASL/SCRAM-SHA-256

输入您的用户名密码以建立连接。

TLS

您可以选择添加证书颁发机构 (CA)。

  • 要添加 CA,请选择使用自定义信任 CA

  • CA 路径中,输入要上传到Qlik Cloud的 CA 文件的路径。CA 文件可供运行任务的集群使用。

附加 Kafka 属性

附加 Kafka 属性是可选的。

为您想包含的任何标签添加,以帮助您识别、组织和管理资源。

Schema 注册表连接

Schema 注册表服务器是可选的。

要连接到 Schema 注册表,请单击设置 Schema 注册表服务器并配置以下设置:

  • 模式注册表 URI:输入 URI,格式为 http://schema-registry1.example.com:8081;http://schema-registry2.example.com:8081

  • 用户名:输入服务器连接的用户名。

  • 密码:输入服务器连接的密码。

模式注册表连接 TLS

如果您选择配置模式注册表服务器,您可以选择添加证书颁发机构 (CA)。

  • 要添加 CA,请选择 使用自定义信任 CA

  • CA 路径 中,输入要上传到 Qlik Cloud 的 CA 文件的路径。CA 文件可供运行任务的群集使用。

创建连接

配置安全方法后,请完成以下步骤以创建连接:

  • 名称 中,输入连接的显示名称,例如,My Kafka Streaming Source connection

  • 单击 测试连接 以验证凭据。

  • 单击创建

将主题映射到数据集

从 Kafka 源摄取时支持以下用例:

主题目标数据集使用案例映射
每个主题都加载到目标数据集。流式登陆任务的数据集映射中支持。
将主题复制到多个数据集。通过多次使用添加到目标来支持。
将事件拆分到多个目标。例如,一个事件包含 ordersorder lines,它们被拆分到多个数据集中。流式转换任务中受支持。复制数据集并在每个数据集中选择不同的字段;或者在转换流中使用分叉处理器选择列处理器
许多根据特定的列值将主题拆分为多个数据集。流式转换任务中支持。针对用于将主题拆分为不同数据集的每个列值,配置一个筛选器处理器。为了处理不匹配的记录,配置一个额外的筛选器处理器,将不匹配的数据输出到单独的数据集。
多个一个将所有符合特定条件的主题摄取到同一目标数据集,或将特定主题摄取到同一数据集。流式登陆任务的数据集映射中受支持。如果将多个主题加载到单个数据集中,并且其中一个主题加载任务失败,则数据集将出错,并且其他主题的加载将中断。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!