引入数据
在 Qlik Open Lakehouse 项目中创建数据管道的第一步是引入数据。此过程涉及从源传输数据并将数据集存储在优化的 Iceberg 表中。数据源的更改会以高效小批量方式持续应用到存储表中。
引入是在一次操作中创建的,但分两步执行。
-
登陆数据
这涉及使用登陆数据任务将数据从本地数据源连续传输到登陆区域。
您还可以将数据登陆到 Lakehouse,在那里数据被登陆到 S3 文件存储。
-
存储数据集
这包括读取登陆数据的初始加载或增量加载,并使用存储数据任务以读取优化格式应用数据。
当您已登录数据时,可以用多种方式使用存储的数据集。
-
您可以在分析应用程序中使用数据集。
-
您可通过在存储 (Snowflake) 数据任务中直接添加镜像数据任务,将数据镜像到 Snowflake。
-
您可通过创建一个跨项目管道,从您的引入项目中消耗数据,从而在 Snowflake 中转换数据。
引入数据
在项目中开始引入数据。数据集将存储在项目中定义的 S3 位置。有关项目的更多信息,请参阅创建数据管道项目。
-
在您的项目中,单击创建,然后单击引入数据。
提示注释您也可以单击项目中现有源上的,然后单击引入数据。
-
为引入添加名称和描述。
单击下一步。
-
选择源连接。
您可以选择现有源连接或创建到源的新连接。
有关更多信息,请参阅设置与数据源的连接。
单击下一步。
-
选择要加载的数据。
有关更多信息,请参阅选择数据。
单击下一步。
显示设置,在其中您可以更新方法和历史设置。
-
在更新方法中,选择用哪个方法来更新数据:
-
更改数据捕获 (CDC)
如果您的数据包含不支持 CDC 的表或视图,则将创建两个数据管道:一个管道包含所有支持 CDC 的表格,另一个管道使用重新加载和比较包含所有其他表格和视图。
-
重载并比较
-
-
选择是否要复制历史记录中的当前数据之外的先前数据的历史记录。
-
准备好后单击下一步。
-
预览为引入数据创建的两个数据任务,如果需要,请重命名它们。
提示注释命名存储数据任务中的数据库模式时使用这些名称。请考虑使用唯一的名称,以避免与使用相同数据平台的其他项目中的数据任务发生冲突。 -
选择是要打开已创建的任何数据任务,还是返回到项目。
准备好后,单击完成。
-
现在创建引入数据任务。要开始复制数据,您需要:
-
准备并运行登陆数据任务。
有关更多信息,请参阅从数据源登陆数据。
-
准备并运行存储数据任务。
有关更多信息,请参阅存储数据集。
选择数据
可以选择特定的表格或视图,或使用选择规则包括或排除表格组。
使用 % 作为通配符来定义架构和表的选择条件。
-
%.% 定义所有架构中的所有表。
-
Public.% 定义所有架构 Public 中的所有表。
选择条件根据您的选择提供预览。
您现在可以:
-
根据选择条件创建规则以包含或排除一组表。
单击从选择标准添加规则以创建规则,然后选择包含或排除。
您可以在选择规则下查看规则。
-
选择一个或多个数据集,然后单击添加选定的数据集。
您可以在显式选择的数据集下查看添加的数据集。
选择规则仅适用于当前的表和视图集,而不适用于将来添加的表和视图。