跳到主要内容 跳到补充内容

登陆数据到 Qlik Open Lakehouse

数据登陆 Amazon S3,准备接受存储数据任务,将其转换为 Iceberg 开放表格式。您可以从 Qlik 支持的任何来源获取数据。

将数据登陆到 Qlik Open Lakehouse 需要一个预先配置好的 Amazon S3 存储段。Qlik Open Lakehouse 专门针对大容量流数据源进行了优化,并与所有 Qlik 支持的数据源兼容。数据以 CSV 格式登陆 S3。存储数据任务将数据转换为 Iceberg 格式并复制至 Parquet 文件。通过 Iceberg 规范,可从任何本机支持 Trino SQL 的引擎(例如 Amazon Athena、Ahana 或 Starburst Enterprise)查询数据。可选择将表格镜像到 Snowflake,在那里查询时不会复制数据。

在具有 AWS Glue 数据目录目标连接的项目中,可将数据登陆到 Qlik Open Lakehouse

准备工作

  • 要将数据镜像到 Snowflake,您必须先创建一个 Qlik Open Lakehouse 项目来摄取数据,并使用 Iceberg 开放数据表格式存储数据。您可以在存储数据任务之后添加镜像数据任务。要执行数据转换,请创建一个以 Qlik Open Lakehouse 项目为数据源的 Snowflake 项目。有关更多信息,请参阅将数据镜像到云数据仓库

  • 尽管您可以在任务设置向导中配置您的源和目标连接设置,但为了简化设置过程,建议您在创建任务之前进行此操作。

创建湖登陆任务

要创建湖登陆任务,请执行以下操作:

  1. 创建一个项目,并在用例中选择数据管道

  2. 数据平台中选择 Qlik Open Lakehouse ,建立与数据目录的连接。

  3. 登陆目标连接中设置存储区域。

  4. 单击创建以创建项目。

当您在项目中加载数据或创建登陆任务时,将创建一个湖登陆任务,而不是登陆任务。湖登陆任务的操作和行为与登陆任务基本相同,不同之处在于它们将数据登陆到云存储。有关更多信息,请参阅从数据源登陆数据

所有文件均以 CSV 格式登陆。更新登陆数据后,使用登陆任务的存储任务会更新外部表。

设置

有关任务设置的更多信息,请参阅湖登陆设置

限制

  • 由于存储任务每分钟运行一次,登陆的数据不会在存储段中分区。因此,无法在任务设置中更新数据集频率。

  • 虽然从 SaaS 数据源登陆数据是按计划进行,但存储任务每分钟都会运行迷你批次。这就需要以最低的成本激活湖空间。

  • 如果主键值发生变化,带有原始键的记录会被标记为删除,而包含变化键值的行会被标记为插入。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!