通过 Qlik Talend Cloud Starter订阅复制数据
使用任务设置向导,只需单击几下即可轻松设置复制任务。
向导中显示的设置反映了所选的目标类型。例如,当复制到 Amazon S3 等存储目标时,系统会提示您输入存储位置。但是,当复制到需要暂存区域的目标(如 Amazon Redshift)时,系统将提示您定义或选择暂存区域。
下表将帮助您根据预期目标浏览此主题。
无需暂存即可复制到数据库和数据仓库
本节介绍如何将复制任务设置到不需要单独暂存区的数据库和数据仓库。
为此:
-
在 数据集成 > 主页中,单击复制数据。
项目打开后,单击复制数据。
-
在常规选项卡中,执行以下操作:
-
任务名称
指定您任务的名称。
-
描述
可选择输入任务的描述。
-
项目
执行以下操作之一:
- 选择一个现有项目
-
为新项目指定一个名称,然后单击项字段下方的添加新项目:<您的项目名称>。
项目名称将添加到项目字段中。
-
空间
为您的复制项目选择一个数据空间。如果尚未创建任何数据空间,请执行以下操作之一:
-
选择数据空间(默认租户数据空间)
-
取消向导,按照创建数据空间中的说明创建自己的数据空间,然后再次运行向导。
有数据关空间的更多信息,请参阅在 Qlik Talend Data Integration 中的空间中工作。
-
-
-
单击下一步。在选择源连接选项卡中,选择到源数据的连接。从操作列中的菜单中选择编辑,可以选择编辑连接设置。
如果尚未创建到数据源的连接,则需要通过单击选项卡右上角的创建连接来创建连接。
您可以使用左侧的筛选器筛选连接列表。可以根据源类型、网关、空间和所有者筛选连接。连接列表上方的所有筛选器按钮显示当前筛选器的数量。您可以使用此按钮关闭或打开左侧的筛选器面板。当前活动的筛选器也显示在可用连接列表的上方。
您也可以从右侧的下拉列表中选择上次修改时间、上次创建时间或按字母数字顺序来对列表进行排序。单击列表右侧的箭头可以更改排序顺序。
选择数据源连接后,可以选择单击选项卡右上角的测试连接(推荐),然后单击下一步。
-
在选择数据集选项卡中,选择要包含在复制任务中的表和/或视图。您还可以使用通配符并创建选择规则,如从数据库选择数据中所述。
-
在选择目标连接选项卡中,从可用连接列表中选择目标,然后单击下一步。在功能方面,该选项卡与前面描述的选择源连接选项卡相同。
-
在设置选项卡中,可以选择更改以下设置,然后单击下一步。
Replication 模式
信息注释从 SaaS 应用程序源进行复制时,默认情况下会启用满负载复制模式,并且不能禁用。- 满负载:将选定源表中的数据加载到目标平台,并在必要时创建目标表。当任务启动时,满负载会自动发生,但如果需要,也可以手动执行。
-
应用更改:使目标表更新对源表所做的任何更改。
-
存储更改:将对源表的更改存储在“更改表”中(每个源表一个)。
有关更多信息,请参阅存储更改。
更改数据捕获频率由调度器设置决定。默认的更改捕获间隔为每六小时一次。有关更多信息,请参阅在不使用 数据移动网关 进行工作的情况下安排任务。
自定义架构
- 目标数据集架构:(可选)选择在目标上创建数据集时要使用的架构。
- 控制表架构:(可选)选择在目标上创建控制表时要使用的架构。
复制计划程序
-
复制数据间隔:您可以安排从数据源捕获更改的频率,并设置开始时间和开始日期。 如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持CDC,则将创建两个独立的子任务(假设选择了应用更改或存储更改复制选项):一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对实际支持 CDC 的数据集的更改。
任务设置向导允许您安排每小时间隔。完成任务设置后,您可以探索不同的计划选项,如在不使用 数据移动网关 进行工作的情况下安排任务中所述。
有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔。
您可以稍后更改设置,如 数据复制任务设置中所述。
-
在摘要选项卡中,将显示数据管道的可视化信息。创建管道后,选择以下在创建管道之后操作之一:
- 打开 <name> 项目(默认)
-
打开 <name> 数据任务
信息注释如果某些选定的数据集不支持 CDC,则将显示两个管道:一个用于 CDC 任务,另一个用于重新加载任务。
然后单击创建并运行(默认)或创建以创建任务而不运行它。
如果单击创建并运行,则任务将被创建并开始运行(可能需要几分钟)。
-
如果单击了创建,则将根据您之前选择的创建管道后操作执行以下操作之一:
- 项目将打开,显示新创建的任务。
-
该任务将在数据集选项卡上打开。数据集选项卡显示所选源表的结构和元数据。这包括所有显式列出的表以及与选择规则匹配的表。
如果要从数据源中添加更多表,请单击选择源数据。
-
您可以对数据集执行转换、筛选数据或添加列。
有关更多信息,请参阅管理数据集。
-
添加所需的转换后,可以通过单击验证数据集来验证数据集。如果验证失败,请先解决错误,然后再继续。
有关更多信息,请参阅验证和调整数据集。
-
准备就绪后,单击准备并运行以准备并运行数据任务。
有关恢复任务和运行任务的其他方法的信息,请参阅高级运行选项。
-
复制任务现在应该开始了,您可以在监视器中看到进度。有关更多信息,请参阅 监视单个数据任务
通过暂存复制到数据仓库
本部分介绍如何为需要单独暂存区的数据仓库设置复制任务。
为此:
-
在 数据集成 > 主页中,单击复制数据。
项目打开后,单击复制数据。
-
在常规选项卡中,执行以下操作:
-
任务名称
指定您任务的名称。
-
描述
可选择输入任务的描述。
-
项目
执行以下操作之一:
- 选择一个现有项目
-
为新项目指定一个名称,然后单击项字段下方的添加新项目:<您的项目名称>。
项目名称将添加到项目字段中。
-
空间
为您的复制项目选择一个数据空间。如果尚未创建任何数据空间,请执行以下操作之一:
-
选择数据空间(默认租户数据空间)
-
取消向导,按照创建数据空间中的说明创建自己的数据空间,然后再次运行向导。
有数据关空间的更多信息,请参阅在 Qlik Talend Data Integration 中的空间中工作。
-
-
-
单击下一步。在选择源连接选项卡中,选择到源数据的连接。从操作列中的菜单中选择编辑,可以选择编辑连接设置。
如果尚未创建到数据源的连接,则需要通过单击选项卡右上角的创建连接来创建连接。
您可以使用左侧的筛选器筛选连接列表。可以根据源类型、网关、空间和所有者筛选连接。连接列表上方的所有筛选器按钮显示当前筛选器的数量。您可以使用此按钮关闭或打开左侧的筛选器面板。当前活动的筛选器也显示在可用连接列表的上方。
您也可以从右侧的下拉列表中选择上次修改时间、上次创建时间或按字母数字顺序来对列表进行排序。单击列表右侧的箭头可以更改排序顺序。
选择数据源连接后,可以选择单击选项卡右上角的测试连接(推荐),然后单击下一步。
-
在选择数据集选项卡中,选择要包含在复制任务中的表和/或视图。您还可以使用通配符并创建选择规则,如从数据库选择数据中所述。
-
在选择目标连接选项卡中,从可用连接列表中选择目标,然后单击下一步。在功能方面,该选项卡与前面描述的选择源连接选项卡相同。
-
在设置选项卡中,可以选择更改以下设置,然后单击下一步。
Replication 模式
信息注释从 SaaS 应用程序源进行复制时,默认情况下会启用满负载复制模式,并且不能禁用。- 满负载:将选定源表中的数据加载到目标平台,并在必要时创建目标表。当任务启动时,满负载会自动发生,但如果需要,也可以手动执行。
-
应用更改:使目标表更新对源表所做的任何更改。
-
存储更改:将对源表的更改存储在“更改表”中(每个源表一个)。
有关更多信息,请参阅存储更改。
更改数据捕获频率由调度器设置决定。默认的更改捕获间隔为每六小时一次。有关更多信息,请参阅在不使用 数据移动网关 进行工作的情况下安排任务。
暂存区域连接
当复制到下面列出的数据仓库时,您需要设置一个暂存区域。数据在转移到仓库之前在暂存区进行处理和准备。
选择现有暂存区域,或单击新建以定义新的暂存区域,然后按照连接至云存储中的说明进行操作。
要编辑连接设置,请单击编辑。要测试连接(推荐),请单击测试连接。
有关哪些数据仓库支持哪些暂存区域的信息,请参阅目标平台用例和支持的版本中的支持作为暂存区列。
自定义计划
- 目标数据集架构:(可选)选择在目标上创建数据集时要使用的架构。
- 控制表架构:(可选)选择在目标上创建控制表时要使用的架构。
复制计划程序
-
复制数据间隔:您可以安排从数据源捕获更改的频率,并设置开始时间和开始日期。 如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持CDC,则将创建两个独立的子任务(假设选择了应用更改或存储更改复制选项):一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对实际支持 CDC 的数据集的更改。
任务设置向导允许您安排每小时间隔。完成任务设置后,您可以探索不同的计划选项,如在不使用 数据移动网关 进行工作的情况下安排任务中所述。
您可以稍后更改设置,如 数据复制任务设置中所述。
-
在摘要选项卡中,将显示数据管道的可视化信息。创建管道后,选择以下在创建管道之后操作之一:
- 打开 <name> 项目(默认)
-
打开 <name> 数据任务
信息注释如果某些选定的数据集不支持 CDC,则将显示两个管道:一个用于 CDC 任务,另一个用于重新加载任务。
然后单击创建并运行(默认)或创建以创建任务而不运行它。
如果单击创建并运行,则任务将被创建并开始运行(可能需要几分钟)。
-
如果单击了创建,则将根据您之前选择的创建管道后操作执行以下操作之一:
- 项目将打开,显示新创建的任务。
-
该任务将在数据集选项卡上打开。数据集选项卡显示所选源表的结构和元数据。这包括所有显式列出的表以及与选择规则匹配的表。
如果要从数据源中添加更多表,请单击选择源数据。
-
您可以对数据集执行转换、筛选数据或添加列。
有关更多信息,请参阅管理数据集。
-
添加所需的转换后,可以通过单击验证数据集来验证数据集。如果验证失败,请先解决错误,然后再继续。
有关更多信息,请参阅验证和调整数据集。
-
准备就绪后,单击准备并运行以准备并运行数据任务。
有关恢复任务和运行任务的其他方法的信息,请参阅高级运行选项。
-
复制任务现在应该开始了,您可以在监视器中看到进度。有关更多信息,请参阅 监视单个数据任务
复制到云存储
本节介绍如何设置到云存储的复制任务。
为此:
-
在 数据集成 > 主页中,单击复制数据。
项目打开后,单击复制数据。
-
在常规选项卡中,执行以下操作:
-
任务名称
指定您任务的名称。
-
描述
可选择输入任务的描述。
-
项目
执行以下操作之一:
- 选择一个现有项目
-
为新项目指定一个名称,然后单击项字段下方的添加新项目:<您的项目名称>。
项目名称将添加到项目字段中。
-
空间
为您的复制项目选择一个数据空间。如果尚未创建任何数据空间,请执行以下操作之一:
-
选择数据空间(默认租户数据空间)
-
取消向导,按照创建数据空间中的说明创建自己的数据空间,然后再次运行向导。
有数据关空间的更多信息,请参阅在 Qlik Talend Data Integration 中的空间中工作。
-
-
-
单击下一步。在选择源连接选项卡中,选择到源数据的连接。从操作列中的菜单中选择编辑,可以选择编辑连接设置。
如果尚未创建到数据源的连接,则需要通过单击选项卡右上角的创建连接来创建连接。
您可以使用左侧的筛选器筛选连接列表。可以根据源类型、网关、空间和所有者筛选连接。连接列表上方的所有筛选器按钮显示当前筛选器的数量。您可以使用此按钮关闭或打开左侧的筛选器面板。当前活动的筛选器也显示在可用连接列表的上方。
您也可以从右侧的下拉列表中选择上次修改时间、上次创建时间或按字母数字顺序来对列表进行排序。单击列表右侧的箭头可以更改排序顺序。
选择数据源连接后,可以选择单击选项卡右上角的测试连接(推荐),然后单击下一步。
-
在选择数据集选项卡中,选择要包含在复制任务中的表和/或视图。您还可以使用通配符并创建选择规则,如从数据库选择数据中所述。
-
在选择目标连接选项卡中,从可用连接列表中选择目标,然后单击下一步。在功能方面,该选项卡与前面描述的选择源连接选项卡相同。
-
在设置选项卡中,可以选择更改以下设置,然后单击下一步。
更新方法
-
更改数据捕获 (CDC):数据湖登陆任务从满负载开始(在此期间,所有选定的表都将登陆)。然后使用 CDC(更改数据捕获)技术使登陆数据保持最新。
信息注释不支持 DDL 操作的 CDC(更改数据捕获)。更改数据捕获频率由调度器设置决定。默认的更改捕获间隔为每六小时一次。有关更多信息,请参阅在不使用 数据移动网关 进行工作的情况下安排任务。
- 重新加载将数据从选定的源表完全加载到目标平台,并在必要时创建目标表。任务启动时会自动进行满负载,但也可以手动执行或根据需要安排定期进行。
如果您选择更改数据捕获 (CDC),并且您的数据还包含不支持 CDC 的表或视图,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载的所有其他表和视图。
要使用的文件夹
根据要将文件写入的存储段文件夹,选择以下选项之一:
- 默认文件夹:默认文件夹格式为 <your-project-name>/<your-task-name>
- 根文件夹:文件将直接写入存储段。
-
文件夹:输入文件夹名称。如果该文件夹不存在,将在数据湖登陆任务期间创建该文件夹。
信息注释 文件夹名称不能包含特殊字符(例如 @、#、 ! 等)。
复制计划程序
-
复制数据间隔:您可以安排从数据源捕获更改的频率,并设置开始时间和开始日期。 如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持CDC,则将创建两个独立的子任务(假设选择了更改数据捕获 (CDC) 更新方法为):一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对实际支持 CDC 的数据集的更改。
任务设置向导允许您安排每小时间隔。完成任务设置后,您可以探索不同的计划选项,如在不使用 数据移动网关 进行工作的情况下安排任务中所述。
您可以稍后更改任务设置,如云存储目标的设置中所述。
-
-
在摘要选项卡中,将显示数据管道的可视化信息。创建管道后,选择以下在创建管道之后操作之一:
- 打开 <name> 项目(默认)
-
打开 <name> 数据任务
信息注释如果某些选定的数据集不支持 CDC,则将显示两个管道:一个用于 CDC 任务,另一个用于重新加载任务。
然后单击创建并运行(默认)或创建以创建任务而不运行它。
如果单击创建并运行,则任务将被创建并开始运行(可能需要几分钟)。
-
如果单击了创建,则将根据您之前选择的创建管道后操作执行以下操作之一:
- 项目将打开,显示新创建的任务。
-
该任务将在数据集选项卡上打开。数据集选项卡显示所选源表的结构和元数据。这包括所有显式列出的表以及与选择规则匹配的表。
如果要从数据源中添加更多表,请单击选择源数据。
-
您可以对数据集执行转换、筛选数据或添加列。
有关更多信息,请参阅管理数据集。
-
添加所需的转换后,可以通过单击验证数据集来验证数据集。如果验证失败,请先解决错误,然后再继续。
有关更多信息,请参阅验证和调整数据集。
-
准备就绪后,单击准备并运行以准备并运行数据任务。
有关恢复任务和运行任务的其他方法的信息,请参阅高级运行选项。
-
复制任务现在应该开始了,您可以在监视器中看到进度。有关更多信息,请参阅监视单个数据任务
设置数据集的加载优先级
您可以通过为每个数据集指定加载优先级来控制数据任务中数据集的加载顺序。例如,如果您想先加载较小的数据集,然后再加载较大的数据集,这就很有用。
-
点击加载优先级。
-
为每个数据集选择加载优先级。
默认加载优先级为正常。数据集将按以下优先顺序加载:
-
最高
-
较高
-
高
-
正常
-
低
-
较低
-
最低
具有相同优先级的数据集不分先后加载。
-
-
单击确定。
正在刷新元数据
您可以刷新任务中的元数据,以与任务的设计视图中源元数据的更改保持一致。对于使用 Metadata manager 的 SaaS 应用程序,必须先刷新 Metadata manager,然后才能刷新数据任务中的元数据。
-
您可以:
-
单击 ...,然后刷新元数据以刷新任务中所有数据集的元数据。
-
点击在数据集中的某个数据集上的 ...,然后刷新元数据以刷新单个数据集的元数据。
您可以在屏幕下部的刷新元数据下查看元数据刷新的状态。通过将光标悬停在 上,您可以看到元数据上次刷新的时间。
-
-
准备数据任务才能应用更改。
准备好数据任务并应用更改后,将从刷新元数据中删除这些更改。
您必须准备使用此任务的存储任务来传播更改。
如果删除列,则会添加一个具有 Null 值的转换,以确保存储不会丢失历史数据。
刷新元数据的限制
-
如果数据类型和数据长度相同,则在此之前在同一时隙中具有删除列的重命名将被转换为删除列重命名。
示例:
之前:a b c d
之后:a c1 d
在这个例子中,b 被删除,c 被重命名为 c1,b 和 c 具有相同的数据类型和数据长度。
这将被识别为 b 到 c1 并删除 c 的重命名。
-
即使删除了最后一列,并且其前面的一列被重命名,也无法识别最后一列的重命名。
示例:
之前:a b c d
之后:a b c1
在这个例子中,d 被删除,c 被重命名为 c1。
这将被识别为 c 和 d 的删除,以及 c1 的添加。
-
假设在末尾添加了新列。如果在中间添加与下一列具有相同数据类型的列,则可能会将其解释为删除和重命名。
复制数据时的限制和考虑事项
转换受以下限制:
- 语序为从右向左的语言的列不支持转换。
-
无法对名称中包含特殊字符(例如 #、\、/、-)的列执行转换。
- LOB/CLOB 数据类型唯一支持的转换是删除目标上的列。
- 不支持使用转换重命名列,然后添加同名的新列。
移动的列不支持更改可空性,无论是直接更改还是使用转换规则。但是,默认情况下,任务中创建的新列可以为空。