录入数据
在 Qlik Open Lakehouse 项目中创建数据管道的第一步是引入数据。此过程涉及从源传输数据并将数据集存储在优化的 Iceberg 表中。
引入是在一次操作中创建的,但分两步执行。数据源类型(CDC 或数据流)决定了项目中的任务:
CDC 源
-
登陆数据
这涉及使用登陆数据任务,以连续小批量的方式将数据从本地数据源传输到登陆区域。
您还可以将数据登陆到 Lakehouse,在那里数据被登陆到 S3 文件存储。
-
存储数据集
这包括读取登陆数据的初始加载或增量加载,并使用存储数据任务以读取优化格式应用数据。
数据流源
-
登陆数据
这涉及使用数据流登陆数据任务,将数据从源连续流式传输到登陆区域。
-
存储数据集
这包括读取登陆数据的初始加载,并使用存储转换数据任务以读取优化格式应用数据。
使用已载入的数据
当您已载入数据时,您可以通过多种方式使用存储的数据集,包括:
-
您可以在分析应用程序中使用数据集。
-
您可以通过将镜像数据任务直接添加到用于 CDC 源的存储数据任务,或添加到用于数据流源的数据流转换任务,从而将数据镜像到一个或多个云数据仓库,包括 Amazon Redshift 和 Snowflake。
有关更多信息,请参阅将数据镜像到云数据仓库。
-
您可通过创建一个跨项目管道,从您的引入项目中消耗数据,从而在您的云数据仓库中转换数据。