监视单个数据任务
您可以通过从数据任务窗口左上角的下拉菜单中选择监视来监视数据任务的状态和进度。
您还可以创建监视器视图来监视多个数据任务。有关更多信息,请参阅监控和操作您的数据任务。
监视登陆和复制任务
登陆和复制任务的监测是相似的,因为可以监测初始负载和 CDC,但由于它们的使用情况不同,存在一些显著的差异。
-
数据管道用例:登陆任务
所有登陆任务都必须从目标的全部源数据开始。一旦初始满负载完成,目标数据就会随着源数据的更改而更新。这可以根据任务定义使用重新加载和比较或更改数据捕获 (CDC) 来完成。
有关更多信息,请参阅从数据源登陆数据。
-
复制用例:“复制数据”任务
“复制数据”任务通常从将源数据完全加载到目标开始。这在从 SaaS 应用程序进行复制时是必需的,但在从数据库进行复制时却是可选的。从数据库复制时,如果源数据已存在于目标上,并且您只希望将源更改应用于目标(或存储这些更改以备日后应用),则复制模式可以是应用更改、存储更改或两者兼有。这两种复制模式都显示在 CDC 监控中。
有关“复制数据”任务的更多信息,请参阅以下主题:
-
复制用例:“在数据湖中登陆数据”任务
“在数据湖中登陆数据”任务与登陆任务类似,因为它们必须以满负载开始。一旦初始满负载完成,目标数据就会随着源数据的更改而更新。这可以使用重新加载或更改数据捕获 (CDC) 来完成。尽管“在数据湖中登陆数据”任务与登陆任务相似,但它们被视为复制任务,因为它们仅由源到目标的复制组成。它们不提供在数据管道中可用的更下游操作数据的可能性(例如,使用转换和数据集市)。
信息注释创建单独的“在数据湖中登陆数据”任务的步骤与 Qlik Talend Cloud Starter 订阅无关。通过 Qlik Talend Cloud Starter 订阅,可以通过标准的“复制数据”任务完成向云存储目标的复制。有关“在数据湖中登陆数据”任务的更多信息,请参阅使用标准、高级或企业订阅将在数据湖中登陆数据。
监控详细信息
您可以查看处于满负载状态的数据任务的以下详细信息:
-
已排队 - 当前排队的表数。
-
加载中 - 当前正在加载的表数。
-
已完成- 已完成的表数。
-
错误 - 出错的表的数目。
您可以查看数据任务中每个表的以下详细信息:
-
名称
目标表的名称。
-
州/省
表状态将为:已排队、正在加载、已完成或错误。
-
开始
加载开始的时间。
-
结束
加载结束的时间。
-
持续时间
hh:mm:ss 格式加载的持续时间。
-
记录
加载期间复制的记录数。
-
缓存的更改
缓存的更改数。
-
信息
如果加载未成功处理,则显示错误消息。
更改数据捕获 (CDC) 监控详细信息
您可以查看数据任务的以下 CDC 详细信息,以监控 CDC 状态下的更改处理:
-
传入更改 - 源中存在并等待处理的更改数。您可以查看累积的数量和应用的数量。
-
已处理的更改 -(在过去 24 小时内)已处理和应用的更改数。
-
吞吐量 - 平均目标吞吐量,单位为千字节/秒。这表示将更改记录加载到目标端点的速度。
-
延迟 — 数据资产的当前延迟 (hh:mm:ss)。此持续计划示从更改在源中可用到更改在目标或登陆资产中应用和可用的时间。
您可以查看数据任务中每个表的以下详细信息:
-
名称
登陆资产中目标表的名称。
-
州/省
表格状态将为:累积更改或错误。
-
上次处理
上次更改表的日期和时间。
-
插入
插入操作的数目。
-
更新
更新操作的数目。
信息注释更新作为 SaaS 应用程序源的插件处理。 -
删除
删除操作的数目。
-
DDL 操作
DDL 操作的数量
信息注释仅适用于“复制数据”任务。 -
信息
如果对表的更改失败且未处理,则显示错误消息。
如果您正在从本地源登陆数据,并且选择了满负载模式,则在登陆资产为运行时将自动重新加载表。
如果您正在从本地源登录数据,并且选择了满负载和 CDC 模式,则在初始满负载后,表将不断以新数据更新。
重新加载所选表
可以从源手动重新加载选定的表。当您想要恢复有错误的单个表时,这很有用。重新加载表不会影响 CDC 时间表,如果使用重新创建表,则会重置该时间表。重新加载表时不会传播元数据更改。
-
要重新加载选定的表,请选择监视器下半部分的表,然后单击重新加载表。
您需要与运行数据任务所需的权限相同的权限,即所有者或可操作角色。
在第一次运行数据任务后,可以重新加载表。如果更新方法为重新加载并比较,则在运行数据任务时,重新加载表不可用
下游存储数据任务将在下次运行时同步。如果存储任务已启用历史记录,则会对其进行维护。
如果无法通过重新加载表进行恢复,则下一步是修复数据任务。
将所有表重新加载到目标。
如果遇到无法通过重新加载特定表来解决的 CDC 问题,则可以将所有表重新加载到目标。问题的示例包括丢失事件、源数据库重组引起的问题或读取源数据库事件时失败。
- 停止数据任务和所有使用它的任务。
-
打开数据任务,然后选择监视器选项卡。
-
点击 ...,然后重新加载目标。
这将使用 Drop-Create 将所有表重新加载到目标,并将从现在起重新启动所有更改数据捕获。
-
消耗登陆数据任务的存储任务将通过比较重新加载,并在下次运行时应用以保持同步。现有历史将被保留。类型 2 历史记录将更新,以反映执行重新加载和比较进程后的变化。
类型 2 历史记录中的起始日期的时间戳将反映重新加载日期,而不一定是源中发生更改的日期。
-
在重新加载目标操作期间以及在存储同步之前,存储实时视图将不可靠。存储将在以下情况下完全同步:
-
使用比较和应用重新加载所有表,
-
每个表执行一个更改周期。
-
监视存储、转换和数据集市任务
您可以监视存储、转换或数据集市任务的状态和进度。
-
第一次加载运行时,您可以在满负载状态下查看进度。
-
在处理更改时,您可以查看当前更改批次中的状态和进度。
-
处理更改后,可以查看最后一批更改中的状态和进度。
在监控的下半部分,您可以查看每个数据集的状态和进度。
您还可以查看 SQL 语句级别的详细信息。
查看状态和进度
您可以查看每个表或更改的以下详细信息:
-
州/省
这将显示此数据表或更改的当前状态。
-
已完成 - 加载或更改已成功完成。
-
加载 - 正在处理表或更改。
-
已排队 - 表或更改正在等待处理
-
错误 - 处理表或更改时出错。
-
-
开始
加载或更改处理开始的时间。
-
结束
加载或更改处理结束的时间。
-
持续时间
以 hh:mm:ss 格式加载或更改处理的持续时间。
-
处理的记录
加载或更改中处理的记录数。
-
吞吐量(记录/秒)
直到加载完成,吞吐量才会更新。
-
信息
如果加载或更改未成功处理,则显示错误消息。
随着重复任务更新登陆区域, 数据集将不断用新数据更新。每一批都与特定时间跨度的记录相关。您可以在最后一批更改中看到最近一批的时间跨度。
在数据任务已更新为中显示的时间之前,所有源事务中的数据都可在此数据任务中供使用。一旦加载了所有表并应用了第一组更改,该信息就可用于数据任务。如果选择生成实时视图,还可以在实时视图更新时查看。
如果在初始加载完成之前有第一批更改,则在初始加载完成并应用该批更改之前,不会更新数据任务更新为。例如,假设您正在加载一个数据资产,其中包含一个包含 100 万个订单的订单数据集和一个包含 1000 万个订单详细信息的订单详细信息数据集。这些数据集分别需要 10 分钟和 20 分钟来完成满负载。首先加载订单数据集,然后加载订单详细信息数据集。加载订单数据集时,插入了一个新订单。因此,在加载订单详细信息时,它可能包含新订单的详细信息,而新订单在订单数据集中还不存在。订单和订单详细信息数据集仅在应用第一批更改后同步并完全更新到同一时间。
查看详细信息
您可以查看 SQL 语句级别的详细信息。
-
在监控下部的下拉列表中选择满负载、当前更改批次或最后一批更改。
-
选择要详细监视的数据集。
-
单击监控细节。
将显示监控细节,您可以查看为加载或更改过程的每个步骤执行的命令。您可以单击命令以查看已执行的完整 SQL 语句。
-
单击导出到 CSV 以导出包含所有列出命令的完整 SQL 语句的文本文件。
视图的数据任务已更新为
数据任务已更新为字段显示最旧视图更新的时间。
-
标准视图
数据任务已更新为显示最旧的标准视图更新的时间。
例如,假设一个任务有两个表,Orders 和 Order details。订单更新为 10:01,记录时间为 10:00 和 10:01,订单详细信息仅包含 10:00 的记录。在这种情况下,数据任务会更新到 10:00。这不应与数据任务加载的开始和结束时间混淆,相应时间可能是 10:02 到 10:03。
-
实时视图(存储数据任务)
更新数据以显示最旧的实时视图更新的时间。
例如,假设一个任务有一个订单表。登陆中的订单更新为 10:01,记录时间为 10:00 和 10:01,但存储中的订单仅更新为 10:00 的记录。在这种情况下,订单的实时视图更新为 10:01,标准视图更新为 10:00。