将流数据登陆到 Qlik Open Lakehouse
您可以将来自流数据源的数据登陆到 Amazon S3 中,准备好供流转换任务将其转换为 Iceberg 开放表格式。
将流数据登陆到 Qlik Open Lakehouse 需要预先配置的 Amazon S3 存储段。Qlik Open Lakehouse 专门针对高容量数据源进行了优化,并与所有 Qlik 支持的流数据源兼容。有关支持的流数据源的更多信息,请参阅 连接到数据流。
原始数据以 Avro 格式登陆到 S3 中,流转换任务将数据转换为 Iceberg 格式。Iceberg 规范允许从任何原生支持 Trino SQL 的引擎(例如 Amazon Athena、Ahana 或 Starburst Enterprise)查询数据。或者,可以将表镜像到您的云数据仓库,在那里可以查询它们而无需复制数据。
准备工作
-
确保您已设置 Qlik Open Lakehouse。这包括创建网络集成、湖仓一体集群以及源和目标连接。有关更多信息,请参阅 设置 Qlik Open Lakehouse。
-
要将数据镜像到您的云数据仓库,您必须首先创建一个 Qlik Open Lakehouse 项目来摄取您的数据并使用 Iceberg 开放表格式存储它。您可以在流转换任务之后添加镜像数据任务。有关更多信息,请参阅 将数据镜像到云数据仓库。
创建流登陆任务
要创建流登陆任务,请执行以下操作以首先创建项目:
-
创建一个项目,并在用例中选择数据管道。
-
在数据平台中选择 Qlik Open Lakehouse 并建立到数据目录的连接。
-
在登陆目标连接中设置存储区域。
-
单击创建以创建项目。
当您在项目中载入数据或创建登陆任务时,将创建流登陆任务而不是登陆任务。流登陆任务的操作和行为与登陆任务类似,不同之处在于它们将数据从流数据源登陆到云存储。有关更多信息,请参阅 连接到数据流。
所有文件均以 Avro 格式登陆。在登陆数据更新后,流转换任务会使用登陆数据并更新外部表。
查看任务信息
点击菜单栏上的 以查看任务信息,例如:
-
所有者
-
空间
-
数据平台
-
项目 ID
-
数据任务运行时 ID
操作
流登陆任务中提供以下操作:
-
删除列
选择该列并单击删除。
这将添加一个转换规则,在任务准备并运行后,从新加载的数据中删除该列。您可以通过删除转换规则来恢复新记录的列。
-
对列进行哈希处理,例如屏蔽敏感信息。
在该列中选择哈希。
这将在将输入列与哈希盐字符串连接后生成 SHA-256 哈希。您可以在项目设置中的元数据 > 哈希下设置哈希盐字符串。此设置仅在 Qlik Open Lakehouse 项目中可用。有关更多信息,请参阅 元数据
当对列进行哈希处理时,数据类型将更改为字符串。如果您还想为特权用户保留未哈希的数据,请稍后在转换任务中执行哈希处理。
-
过滤数据
有关更多信息,请参阅 筛选数据集。
-
重命名数据集
单击数据集上的
并选择重命名。
删除任务
如果数据任务未运行,并且同一项目中没有下游任务依赖项,则可以删除该数据任务。
-
在项目的管道项目视图中,单击任务上的
,然后选择删除。
此任务创建的工件(表和视图)也将被删除,除非您选择保留它们。
设置
有关任务设置的更多信息,请参阅 流媒体湖登陆设置