录入数据
在 Qlik Talend Data Integration 项目中创建数据管道的第一步是录入数据。这涉及从数据源传输数据,并以读优化格式存储数据集。您可以使用连续的更改处理来更新数据,也可以使用计划的重新加载。
您可以在一个操作中创建录入,但它会分两步执行。
当您已登录数据时,可以用多种方式使用存储的数据集。
-
您可以在分析应用程序中使用数据集。
-
您可以创建变换。
-
您可以创建数据集市。
录入数据
在项目中开始录入数据。数据集将存储在项目中定义的云数据仓库中。有关项目的更多信息,请参阅创建数据管道。
-
在您的项目中,单击新增,然后单击录入数据。
提示注释您也可以单击项目中现有源上的 ,然后单击录入数据。 -
为录入添加名称和描述。
单击下一步。
-
选择源连接。
您可以选择现有源连接或创建到源的新连接。
有关更多信息,请参阅设置与数据源的连接。
单击下一步。
-
选择要加载的数据。
有关更多信息,请参阅选择数据。
单击下一步。
显示设置,在其中您可以更新方法和历史设置。
-
在更新方法中,选择用哪个方法来更新数据:
-
更改数据捕获 (CDC)
如果您的数据还包含不支持 CDC 的表或视图,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载和比较的所有其他表和视图。
-
重新加载并比较
-
-
选择是否要复制历史记录中的当前数据之外的先前数据的历史记录。
准备好后单击下一步。
-
如果您不使用 数据移动网关 来访问数据源,则设置中将显示以下部分:
复制计划程序
-
复制数据间隔:您可以安排从数据源捕获更改的频率,并设置开始时间和开始日期。如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持,则将创建两个单独的子任务:一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对支持 CDC 的数据集的更改。
引入设置向导允许您安排每小时间隔。完成引入向导后,您可以探索不同的计划选项,如在不使用 数据移动网关 进行工作的情况下安排任务中所述。
有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔。
-
-
预览为录入数据创建的两个数据任务,如果需要,请重命名它们。
提示注释命名存储数据资产中的数据库模式时使用这些名称。由于模式只能与一个任务关联,请考虑使用唯一的名称,以避免与使用相同数据平台的其他项目中的数据资产发生冲突。 -
选择是要打开已创建的任何数据任务,还是返回到项目。
准备好后,单击完成。
现在创建录入数据任务。要开始复制数据,您需要:
选择数据
可以选择特定的表格或视图,或使用选择规则包括或排除表格组。
使用 % 作为通配符来定义架构和表的选择条件。
-
%.% 定义所有架构中的所有表。
-
Public.% 定义所有架构 Public 中的所有表。
选择条件根据您的选择提供预览。
您现在可以:
-
根据选择条件创建规则以包含或排除一组表。
单击从选择标准添加规则以创建规则,然后选择包含或排除。
您可以在选择规则下查看规则。
-
选择一个或多个数据集,然后单击添加选定的数据集。
您可以在显式选择的数据集下查看添加的数据集。
选择规则仅适用于当前的表和视图集,而不适用于将来添加的表和视图。