登陆流数据到 Qlik Open Lakehouse
数据登陆 Amazon S3,准备接受流式转换任务,将其转换为 Iceberg 开放表格式。您可以从 Qlik 支持的任何流数据源登陆数据。
将流数据登陆到 Qlik Open Lakehouse 需要一个预先配置好的 Amazon S3 存储段。Qlik Open Lakehouse 专门针对大容量数据源进行了优化,并与所有 Qlik 支持的流数据源兼容。有关支持的流式来源的更多信息,请参阅连接到数据流。
原始数据以 Avro 格式存储在 S3 中,流式转换任务将数据转换为 Iceberg 格式。通过 Iceberg 规范,可从任何本机支持 Trino SQL 的引擎(例如 Amazon Athena、Ahana 或 Starburst Enterprise)查询数据。可选择将表格镜像到您的云数据仓库,在那里查询时不会复制数据。
在具有 AWS Glue 数据目录目标连接的项目中,可将数据登陆到 Qlik Open Lakehouse 。
准备工作
-
运行数据摄取需要存储湖仓集群,并且必须在创建项目之前进行配置。
-
尽管您可以在设置向导中配置源和目标连接设置,但为了简化设置过程,建议您在创建任务之前执行此操作。
-
要将数据镜像到您的云数据仓库,您必须首先创建一个 Qlik Open Lakehouse 项目,以摄取您的数据并使用 Iceberg 开放表格式存储数据。您可以在流式转换任务之后添加镜像数据任务。有关更多信息,请参阅将数据镜像到云数据仓库。
创建流式登陆任务
要创建流式登陆任务,请执行以下操作以首先创建项目:
-
创建一个项目,并在用例中选择数据管道。
-
在数据平台中选择 Qlik Open Lakehouse ,建立与数据目录的连接。
-
在登陆目标连接中设置存储区域。
-
选择 存储湖屋集群 以执行数据摄取和优化。
-
单击创建以创建项目。
当您在项目中加载数据或创建登陆任务时,将创建一个数据流登陆任务,而不是登陆任务。数据流登陆任务的操作和行为类似于登陆任务,不同之处在于它们将数据从数据流源登陆到云存储。有关更多信息,请参阅连接到数据流。
所有文件均以 Avro 格式登陆。更新登陆数据后,数据流转换任务会使用登陆数据并更新外部表。
设置
有关任务设置的更多信息,请参阅流媒体湖登陆设置。