登陆流数据到 Qlik Open Lakehouse
您可以将来自数据流源的数据登陆到 Amazon S3,准备好让流式转换任务将其转换为 Iceberg 开放表格式。
将流数据登陆到 Qlik Open Lakehouse 需要一个预先配置好的 Amazon S3 存储段。Qlik Open Lakehouse 专门针对大容量数据源进行了优化,并与所有 Qlik 支持的数据流数据源兼容。有关支持的数据流源的更多信息,请参阅 连接到数据流。
原始数据以 Avro 格式存储在 S3 中,流式转换任务将数据转换为 Iceberg 格式。通过 Iceberg 规范,可从任何本机支持 Trino SQL 的引擎(例如 Amazon Athena、Ahana 或 Starburst Enterprise)查询数据。可选择将表格镜像到您的云数据仓库,在那里查询时不会复制数据。
准备工作
-
请确保您已设置 Qlik Open Lakehouse。这包括创建网络集成、lakehouse 集群以及源连接和目标连接。有关更多信息,请参阅设置 Qlik Open Lakehouse。
-
要将数据镜像到您的云数据仓库,您必须首先创建一个 Qlik Open Lakehouse 项目,以摄取您的数据并使用 Iceberg 开放表格式存储数据。您可以在流式转换任务之后添加镜像数据任务。有关更多信息,请参阅将数据镜像到云数据仓库。
创建流式登陆任务
要创建流式登陆任务,请执行以下操作以首先创建项目:
-
创建一个项目,并在用例中选择数据管道。
-
在数据平台中选择 Qlik Open Lakehouse ,建立与数据目录的连接。
-
在登陆目标连接中设置存储区域。
-
单击创建以创建项目。
当您在项目中加载数据或创建登陆任务时,将创建一个数据流登陆任务,而不是登陆任务。数据流登陆任务的操作和行为类似于登陆任务,不同之处在于它们将数据从数据流源登陆到云存储。有关更多信息,请参阅连接到数据流。
所有文件均以 Avro 格式登陆。更新登陆数据后,数据流转换任务会使用登陆数据并更新外部表。
查看任务信息
点击菜单栏上的 以查看任务信息,例如:
-
所有者
-
空间
-
数据平台
-
项目 ID
-
数据任务运行时 ID
操作
以下操作在数据流登陆任务中可用:
-
放置列
选择列,然后单击删除。
这将添加一个转换规则,在任务准备并运行后,从新加载的数据中删除该列。您可以通过删除转换规则来恢复新记录的列。
-
对列进行哈希处理,例如用于屏蔽敏感信息。
在列中选择哈希。
这将在输入列与哈希盐字符串连接后,生成该列的SHA-256哈希值。哈希盐字符串是一个项目设置,可在Qlik Open Lakehouse项目中找到。
对列进行哈希处理后,数据类型将更改为字符串。如果您还想为特权用户保留未哈希数据,请稍后在转换任务中执行哈希操作。
-
筛选数据
有关更多信息,请参阅筛选数据集。
-
重命名数据集
单击数据集上的
并选择重命名。
设置
有关任务设置的更多信息,请参阅流媒体湖登陆设置。