目标更新方法概览
您可以在初始任务设置期间或稍后在数据任务设置中设置要使用的更新方法。一旦准备好数据任务,就无法更改更新方法。可用的更新方法取决于任务类型:登录、复制数据或在数据湖中登陆数据。
在登陆数据时更新方法
-
更改数据捕获 (CDC)
数据任务以满负载开始。然后使用基于日期字段的增量加载来保持目标数据的最新状态。CDC 可能并非所有数据源都支持。
信息注释不支持 DELETE 操作。这意味着,如果在源中删除某行,则不会在平台数据中删除该行。如果删除处理很重要,请改用重新加载并比较。在使用数据移动网关和登陆 SaaS 应用程序的数据时,您可以在设置 > 运行时中设置从源读取更改之间的间隔。不使用 数据移动网关 时,您可以使用调度程序设置间隔。有关更多信息,请参阅在不使用 数据移动网关 进行工作的情况下安排 CDC 任务。
-
重新加载并比较
数据任务仅从源执行满负载。例如,如果您的源不支持 CDC,或者您希望将 DELETE 操作(CDC 不支持)传播到目标,这将非常有用。重新加载和比较可以与任何支持的数据源一起使用,并且可以定期进行。
复制到数据库或数据仓库目标时更新方法
- 满负载:将选定源表中的数据加载到目标平台,并在必要时创建目标表。当任务启动时,满负载会自动发生,但如果需要,也可以手动执行。
-
应用更改:使目标表更新对源表所做的任何更改。
-
存储更改:将对源表的更改存储在“更改表”中(每个源表一个)。
有关更多信息,请参阅存储更改。
使用 数据移动网关 时,几乎实时地从源捕获更改。当不使用 数据移动网关 工作时(例如,使用 Qlik Talend Cloud Starter 订阅或选择无时),将根据调度程序设置捕获更改。有关更多信息,请参阅在不使用 数据移动网关 进行工作的情况下安排任务。
复制到云存储(数据湖)时更新方法
-
更改数据捕获 (CDC):数据湖登陆任务从满负载开始(在此期间,所有选定的表都将登陆)。然后使用 CDC(更改数据捕获)技术使登陆数据保持最新。
信息注释不支持 DDL 操作的 CDC(更改数据捕获)。使用 数据移动网关 时,几乎实时地从源捕获更改。不使用 数据移动网关 时,将根据调度程序设置捕获更改。有关更多信息,请参阅在不使用 数据移动网关 进行工作的情况下安排任务。
- 重新加载将数据从选定的源表完全加载到目标平台,并在必要时创建目标表。任务启动时会自动进行满负载,但也可以手动执行或根据需要安排定期进行。
将设置复制到云存储的过程因订阅级别而异。
- 如果您有标准、企业或高级订阅,请参阅使用标准、高级或企业订阅将在数据湖中登陆数据
- 如果您有入门订阅,请参阅通过 Qlik Talend Cloud Starter订阅复制数据
了解计划更改数据捕获 (CDC)
当不使用 数据移动网关 时,会根据预定的间隔捕获更改。重要的是要了解调度的工作原理,最好通过示例来演示。在下面的示例中,一个任务被计划为从 9:00 开始每 30 分钟运行一次。
- 任务从 9:00 开始,满负载。
- 满负载在 9:40 结束,这意味着 9:30 的运行将被跳过。
- 下一次运行从 10:00 开始,并捕获 10:00 之前提交的任何更改。
- 10:00 的运行在 10:15 结束。
- 下一次运行从 10:30 开始,捕获 10:00 到 10:30 之间发生的任何更改。
限制
变更数据捕获 (CDC) 不支持 SaaS 应用程序返回的某些表。在这种情况下,您将在验证错误中看到一条警告消息。您可以执行以下操作之一:
-
从数据任务中删除表。
-
将数据任务的更新方法更改为重新加载并比较。