跳到主要内容 跳到补充内容

目标更新方法

您可以在初始任务设置期间或稍后在数据任务设置中设置要使用的更新方法。一旦准备好数据任务,就无法更改更新方法。

可用的更新方法由任务类型、连接器功能和连接器分类决定。可用的数据移动任务类型有登陆、复制或数据湖中的登陆数据。

有关连接器的分类和功能的信息,请参阅连接器的帮助。连接器分类由相关帮助页面顶部的徽章指示。没有徽章的连接器被归类为“标准”连接器。

有关连接器分类的详细说明,请参阅连接器分类

信息注释除了使用预览版连接器时的更新方法外,本主题中描述的所有更新方法都假定为数据移动任务定义的源连接器已认证为精简版或标准版。

使用预览版连接器时更新方法

预览版连接器仅支持 Replication 项目。使用预览连接器时,所有数据都会作为更改(插入/更新)传播到目标,包括初始满负载。因此,预览版连接器唯一支持的更新方法如下:

  • 对于“复制数据”任务:仅限应用更改存储更改复制模式。所有数据都将作为更改传播到目标/更改表(插入/更新),包括初始满负载。请注意,对于某些表类型,无法识别更改。在这种情况下,表中的所有数据都将从头开始处理。
  • 对于“在数据湖中登陆数据”任务:仅限更改数据捕获 (CDC) 更新方法。所有数据都将作为更改传播到目标(插入/更新),包括初始满负载。请注意,对于某些表类型,无法识别更改。在这种情况下,表中的所有数据都将从头开始处理。
信息注释不支持捕获删除操作并将其传播到目标。

在使用预览版连接器时,您需要安排从源捕捉更改的频率。有关更多信息,请参见以下主题:

在登陆数据时更新方法

  • 使用变更表更改数据捕获 (CDC)

    数据任务以满负载开始。然后使用基于日期字段的增量加载来保持目标数据的最新状态。CDC 可能并非所有数据源都支持。

    信息注释不支持 DELETE 操作。这意味着,如果在源中删除某行,则不会在平台数据中删除该行。如果删除处理很重要,请改用重新加载并比较

    在使用 Data Movement gateway 和登陆 SaaS 应用程序的数据时,您可以在设置 > 更改处理调谐中设置从源读取更改之间的间隔。不使用 Data Movement gateway 时,您可以使用调度程序设置间隔。有关更多信息,请参阅在不使用 Data Movement gateway 进行工作的情况下安排 CDC 任务

  • 重新加载并比较

    数据任务仅从源执行满负载。例如,如果您的源不支持 CDC,或者您希望将 DELETE 操作(CDC 不支持)传播到目标,这将非常有用。重新加载和比较可以与任何支持的数据源一起使用,并且可以定期进行

复制到数据库或数据仓库目标时更新方法

  • 满负载:将选定源表中的数据加载到目标平台,并在必要时创建目标表。当任务启动时,满负载会自动发生,但如果需要,也可以手动执行。例如,如果需要复制视图的更新(CDC 期间不会捕获视图更新),或者从不支 持 CDC 的数据源进行复制,则需要手动满负载。

  • 应用更改:使目标表更新对源表所做的任何更改。

  • 存储更改:将对源表的更改存储在“更改表”中(每个源表一个)。

    有关更多信息,请参阅存储更改

使用 Data Movement gateway 时,几乎实时地从源捕获更改。当不使用 Data Movement gateway 工作时(例如,使用 Qlik Talend Cloud Starter 订阅或选择时),将根据调度程序设置捕获更改。有关更多信息,请参阅 数据复制任务设置

复制到云存储(数据湖)时更新方法

  • 使用变更表更改数据捕获 (CDC):数据湖登陆任务从满负载开始(在此期间,所有选定的表都将加载到目标)。然后使用 CDC(更改数据捕获)技术使目标数据保持最新。

    信息注释不支持 DDL 操作的 CDC(更改数据捕获)。

    使用 Data Movement gateway 时,几乎实时地从源捕获更改。不使用 Data Movement gateway 时,将根据调度程序设置捕获更改。有关更多信息,请参阅云存储目标的设置

  • 重新加载将数据从选定的源表完全加载到目标平台,并在必要时创建目标表。任务启动时会自动进行满负载,但也可以手动执行或根据需要安排定期进行。

信息注释

将设置复制到云存储的过程因订阅级别而异。

了解计划更改数据捕获 (CDC)

当不使用 Data Movement gateway 或使用预览版连接器时,会根据预定的间隔捕获更改。重要的是要了解调度的工作原理,最好通过示例来演示。在下面的示例中,一个任务被计划为从 9:00 开始每 30 分钟运行一次。

  • 任务从 9:00 开始,满负载。
  • 满负载在 9:40 结束,这意味着 9:30 的运行将被跳过。
  • 下一次运行从 10:00 开始,并捕获 10:00 之前提交的任何更改。
  • 10:00 的运行在 10:15 结束。
  • 下一次运行从 10:30 开始,捕获 10:00 到 10:30 之间发生的任何更改。
信息注释根据系统上的负载、并发运行的任务数量以及可用的 Pod 数量,下一个计划实例可能不会在预定的时间启动。

限制

变更数据捕获 (CDC) 不支持 SaaS 应用程序返回的某些表。在这种情况下,您将在验证错误中看到一条警告消息。您可以:

  • 从数据任务中删除表。

  • 将数据任务的更新方法更改为重新加载并比较

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!