监控单个数据任务
您可以通过在数据任务窗口左上角的下拉菜单中选择 Monitor 来监控数据任务的状态和进度。
您还可以创建监控视图来监控多个数据任务。有关更多信息,请参阅 监控和运行您的数据任务。
通用监控概览
监控视图适用于所有任务类型,可让您跟踪任务状态和指标:
-
选项卡
根据任务类型,在可用选项卡(例如 信息、满负载 和 变更处理、批处理 或 流式传输)之间进行切换。有关每个选项卡的详细信息,请参阅下面的相关任务部分。
-
数据集状态筛选器
数据集表上方的条形图显示每个状态下的数据集数量:已排队、正在加载、已完成 和 错误。该图表会随着数据集状态的变化而动态更新。单击状态段可筛选数据集表,以仅显示处于该状态的数据集。
-
隐藏小组件
单击 隐藏小组件 可折叠指标小组件。这提供了更多空间来查看下方的数据集表。
-
开始日期
当前任务运行开始的日期 and 时间。
-
结束日期
任务运行结束的日期 and 时间。这仅对已完成的任务运行显示。
-
运行历史记录
单击 运行历史记录 可查看以前任务运行及其结果的列表。
监控数据移动任务
可用的监控选项由任务类型和连接器类型共同决定。由于某些连接器不支持 CDC(例如 Epicor),因此对于这些连接器,将不会显示与 CDC 相关的监控选项。同样,由于某些连接器不支持满负载(例如 Preview connectors),因此对于这些连接器,将不会显示与满负载相关的监控选项。
数据管道用例:登陆任务
所有登陆任务都必须首先将源数据满负载到目标。初始满负载完成后,将使用源数据的变更来更新目标数据。根据任务定义,这可以通过使用 重新加载并比较 或 变更数据捕获 (CDC) 来完成。
有关登陆任务的更多信息,请参阅 从数据源登陆数据。
复制用例:“复制数据”任务
“复制数据”任务通常首先将源数据满负载到目标。下表总结了满负载用例。
| 用例 | 满负载 |
|---|---|
| 从通过 Lite 连接器访问的 SaaS 应用程序进行复制 | 必需 |
| 从通过 Preview 连接器访问的 SaaS 应用程序进行复制。 | 不相关,因为 Preview 连接器不支持满负载。 |
| 从数据库进行复制 | 可选 |
从数据库进行复制时,如果源数据已存在于目标上,并且您只想将源变更应用到目标(或存储它们以便稍后应用),则复制模式可以为 应用变更、存储变更 或两者。这两种复制模式都会在 CDC 监控中显示。
有关“复制数据”任务的更多信息,请参阅以下主题:
通过Qlik Talend Cloud Starter 订阅复制数据
复制用例:“在数据湖中登陆数据”任务
“在数据湖中登陆数据”任务与登陆任务类似,因为它们必须首先进行满负载。初始满负载完成后,将使用源数据的变更来更新目标数据。这可以使用 重新加载 或 变更数据捕获 (CDC) 来完成。尽管它们与登陆任务相似,但“在数据湖中登陆数据”任务被视为复制任务,因为它们仅包含源到目标的复制。它们不提供在下游进一步操作数据的可能性(例如,使用转换和数据集市),而这在数据管道中是可用的。
有关“在数据湖中登陆数据”任务的更多信息,请参阅 使用标准、高级或企业订阅将在数据湖中登陆数据。
监控详细信息
以下监控详细信息可用:
-
信息
-
满负载
-
变更处理
-
流式传输
仅适用于流式传输登陆任务。
信息监控详细信息
您可以查看有关任务的常规信息、运行 ID 以及数据更新时间。对于 CDC 任务,此选项卡中还提供调度信息。
满负载监控详细信息
您可以在 满负载 中查看数据任务的以下统计信息:
-
总数据集数
已加载的数据集数量。
-
出错的数据集数
出错的数据集数量。
-
总延迟
任务的当前延迟 (hh:mm:ss)。此持续时间表示从源中提供变更到在目标或登陆中应用并提供变更的时间。
-
总吞吐量
目标吞吐量(千字节/秒)。这指示将变更记录加载到目标端点的速度。
您可以查看数据任务中每个数据集的以下详细信息:
-
名称
目标数据集的名称。
-
状态
表状态将为以下之一:已排队、正在加载、已完成 或 错误。
-
已开始
开始加载的时间。
-
已结束
加载结束的时间。
-
持续时间
加载持续时间,格式为 hh:mm:ss。
-
记录数
加载期间写入目标的记录数。
-
消息
如果加载未成功处理,则显示错误消息。
变更处理监控详细信息
变更处理 显示在最后一次 CDC 运行期间或当前运行(如果尚未完成)期间应用到所有表的变更数。要查看自任务启动以来应用到单个数据集的变更数,请参阅 数据集 表。
您可以查看以下变更处理统计信息:
-
总数据集数
已加载的数据集数量。
-
出错的数据集数
出错的数据集数量。
-
总延迟
任务的当前延迟 (hh:mm:ss)。此持续时间表示从源中提供变更到在目标或登陆中应用并提供变更的时间。
-
总吞吐量
目标吞吐量(千字节/秒)。这指示将变更记录加载到目标端点的速度。
-
总传入变更数
源中存在且等待处理的变更数。您可以查看源中累积了多少变更,以及正在应用多少变更。
-
总应用变更数
应用到目标或登陆的变更数。您可以查看添加、删除和更新的数量。
您可以查看数据任务中每个表的以下详细信息:
-
名称
登陆资产中目标表的名称。
-
状态
表状态将为以下之一:正在累积变更、 错误 或 已完成(对于计划的 CDC 任务)。
-
上次处理时间
对表进行最后一次变更的日期和时间。
-
插入、更新 和 删除
信息注释筛选源数据集时,插入、更新 和 删除 列将按如下方式分组:
-
读取: 筛选前从源数据集读取的变更数(插入、更新和删除)。
-
写入(筛选后):筛选后实际写入目标的变更数(插入、更新和删除)。
有关筛选数据集的信息,请参阅 筛选数据集。
-
插入
插入操作的数量。
-
更新
更新操作的数量。
信息注释对于 SaaS 应用程序源,更新将作为插入处理。 -
删除
删除操作的数量。
-
-
DML(插入/更新)
信息注释筛选源数据集时,插入、更新 和 删除 列将按如下方式分组:
-
读取 DML(插入/更新): 筛选前从源数据集读取的 DML(插入和更新)数量。
-
写入 DML(插入/更新): 筛选后实际写入目标的 DML(插入和更新)数量。
有关筛选数据集的信息,请参阅 筛选数据集。
-
-
DDL 操作
DDL 操作的数量
信息注释仅适用于“复制数据”任务。 -
消息
如果对表的变更失败且未处理,则显示错误消息。
如果您正在从本地源登陆数据并选择了 满负载 模式,则在 运行 登陆资产时,表将自动重新加载。
如果您正在从本地源登陆数据并选择了 满负载和 CDC 模式,则在初始满负载完成后,表将持续更新为新数据。
重新加载选定的表
您可以从源手动重新加载选定的表。当您想要恢复出错的单个表时,这很有用。重新加载表不会影响 CDC 时间线,如果您使用 重新创建表,该时间线将被重置。重新加载表时不会传播元数据变更。
-
要重新加载选定的表,请在 Monitor 的下半部分中选择这些表,然后单击 重新加载表。
您需要具有运行数据任务所需的相同权限,即 所有者 或 可以操作 角色。
重新加载表 在数据任务首次运行后可用。如果更新方法是 重新加载并比较,则在数据任务运行时,重新加载表 不可用。
下游存储数据任务将在下次运行时进行同步。如果存储任务启用了历史记录,它将被保留。
如果无法通过重新加载表进行恢复,则下一步是修复数据任务。
重新加载所有表到目标
如果您遇到无法通过重新加载特定表来解决的 CDC 问题,您可以重新加载所有表到目标。问题的示例包括丢失事件、源数据库重组引起的问题或读取源数据库事件时失败。
- 停止数据任务和所有使用它的任务。
-
打开数据任务,然后选择监视器选项卡。
-
点击 ...,然后重新加载目标。
这将使用 Drop-Create 将所有表重新加载到目标,并将从现在起重新启动所有更改数据捕获。
-
消耗登陆数据任务的存储任务将通过比较重新加载,并在下次运行时应用以保持同步。现有历史将被保留。类型 2 历史记录将更新,以反映执行重新加载和比较进程后的变化。
类型 2 历史记录中的起始日期的时间戳将反映重新加载日期,而不一定是源中发生更改的日期。
-
在重新加载目标操作期间以及在存储同步之前,存储实时视图将不可靠。存储将在以下情况下完全同步:
-
使用比较和应用重新加载所有表,
-
每个表执行一个更改周期。
-
监控存储、转换、数据集市、镜像和知识集市任务
您可以监控存储、转换、数据集市、镜像或知识集市任务的状态和进度。
以下监控详细信息可用:
-
信息
-
满负载
-
批处理
信息监控详细信息
您可以查看有关任务的常规信息、运行 ID 以及数据更新时间。
满负载监控详细信息
您可以在 满负载 中查看数据任务的以下统计信息:
-
总数据集数
已加载的数据集数量。
-
出错的数据集数
出错的数据集数量。
-
总吞吐量
目标吞吐量(千字节/秒)。这指示将变更记录加载到目标端点的速度。
批处理监控详细信息
您可以查看变更批次的统计信息:
-
总数据集数
已加载的数据集数量。
-
出错的数据集数
出错的数据集数量。
-
总延迟
任务的当前延迟 (hh:mm:ss)。此持续时间表示从源中提供变更到在目标或登陆中应用并提供变更的时间。
-
总吞吐量
目标吞吐量(千字节/秒)。这指示将变更记录加载到目标端点的速度。
-
源
源中的延迟和吞吐量。
-
目标
目标中的延迟和吞吐量。
-
总传入变更数
源中存在且等待处理的变更数。您可以查看源中累积了多少变更,以及正在应用多少变更。
-
总应用变更数
应用到目标或登陆的变更数。您可以查看添加、删除和更新的数量。
查看状态和进度
您可以在 数据集 中查看每个数据集或变更的以下详细信息:
-
名称
目标数据集的名称。
-
状态
表状态将为以下之一:已排队、正在加载、已完成 或 错误。
-
已开始
开始加载的时间。
-
已结束
加载结束的时间。
-
持续时间
加载持续时间,格式为 hh:mm:ss。
-
记录数
加载期间写入目标的记录数。
-
消息
如果加载未成功处理,则显示错误消息。
截至 数据任务更新至 中显示的时间的所有源事务的数据均可从此数据任务中消费。一旦加载了所有表并应用了第一组变更,此信息就可用于数据任务。如果您选择生成实时视图,您还可以查看实时视图的更新时间。
如果在初始加载完成之前有一批变更,则在初始加载完成并应用第一批变更之前,数据任务更新至 将不会更新。例如,假设您正在加载一个数据资产,其中包含一个包含 100 万个订单的订单数据集和一个包含 1000 万个订单详细信息的订单详细信息数据集。这两个数据集执行满负载分别需要 10 分钟 and 20 分钟。首先加载订单数据集,然后加载订单详细信息数据集。在加载订单数据集时,插入了一个新订单。因此,当加载订单详细信息时,它可能包含新订单的详细信息,而该新订单在订单数据集中尚不存在。只有在应用第一批变更后,订单 and 订单详细信息数据集才会同步并完全更新到同一时间。
查看详细信息
您可以查看 SQL 语句级别的详细信息。
-
选择要详细监控的数据集。
-
单击 监控详细信息。
系统将显示 监控详细信息,您可以查看为加载或变更过程的每个步骤执行的命令。您可以单击命令以查看执行的完整 SQL 语句。
-
单击 导出为 CSV 可导出包含所有列出命令的完整 SQL 语句的文本文件。
视图的 数据任务更新至
该 数据任务更新至 字段显示最旧视图更新到的时间。
-
标准视图
数据任务更新至 显示最旧标准视图更新到的时间。
例如,假设一个任务有两个表:Orders 和 Order details。Orders 已更新至 10:01,包含来自 10:00 和 10:01 的记录,而 Order details 仅包含来自 10:00 的记录。在这种情况下,数据任务更新至 10:00。这不应与数据任务加载的开始和结束时间混淆,后者可能是 10:02 到 10:03。
-
实时视图(存储数据任务)
数据任务更新至 显示最旧实时视图更新到的时间。
例如,假设一个任务有一个 Orders 表。登陆中的 Orders 已更新至 10:01,包含来自 10:00 和 10:01 的记录,但存储中的 Orders 仅更新至来自 10:00 的记录。在这种情况下,Orders 的实时视图更新至 10:01,标准视图更新至 10:00。
查看运行历史记录
您可以查看任务的运行历史记录,以确定根本原因并了解随时间推移而呈现的模式。
-
在任务的 监控 视图中,单击 运行历史记录。
-
在 监控视图 中,单击任务的 ... 菜单中的 运行历史记录。
根据您的筛选选择,运行历史记录中最多显示 100 次执行。优化您的筛选条件以查看其他执行。您可以根据执行结束日期和任务状态进行筛选。运行信息保留 13 个月。运行中的数据集元数据保留 30 天。
按钮指示。