跳到主要内容 跳到补充内容

存储数据集

您可以使用存储数据任务存储数据集。存储数据任务消耗登陆数据任务放置到云登陆区域的数据。您可以在例如分析应用程序中使用表格。

  • 当登陆数据任务的状态至少为准备就绪时,可以设计存储数据任务。

  • 当登陆数据任务的状态至少为准备运行时,可以准备存储数据任务。

存储数据任务将使用与使用的登陆数据任务相同的操作模式(满负载/满负载并持续更新变动)。两种操作模式之间以及监视和控制选项之间的配置属性不同。如果仅在满负载情况下使用云目标登陆数据任务,则存储数据任务将创建登陆表的视图,而不是生成物理表。

信息注释数据任务在其所属项目的所有者的上下文中运行。有关所需角色和权限的更多信息,请参阅数据空间角色和权限

创建存储数据任务

您可以通过三种方式创建存储数据任务:

  • 单击登陆数据任务上的 ...,然后选择存储数据以基于此登陆数据资产创建存储数据任务。

  • 单击新增,然后单击存储数据。在这种情况下,您需要指定要使用的登陆数据任务。

  • 当您装载数据时,将创建存储数据任务。它连接到录入数据时创建的登陆数据任务。

    有关更多信息,请参阅录入数据

创建存储数据任务后:

  1. 通过单击 ... 并选择打开,打开存储数据任务。
    存储数据任务将打开,您可以根据登陆数据资产中的表预览输出数据集。

  2. 对包含的数据集进行所有必要的更改,例如转换、筛选数据或添加列。

    有关更多信息,请参阅管理数据集

  3. 添加所需的转换后,可以通过单击验证数据集来验证数据集。如果验证发现错误,请在继续之前修复错误。

    有关更多信息,请参阅验证和调整数据集

  4. 创建数据模型

    单击模型以设置包含的数据集之间的关系。

    有关更多信息,请参阅 创建数据模型

  5. 单击准备以准备数据任务和所有必需的工件。这可能需要一点时间。

    您可以按照屏幕下部准备进度下的进度进行操作。

  6. 当状态显示准备运行时,您可以运行数据任务。

    单击运行

    数据任务现在将开始创建数据集来存储数据。

保存历史数据

您可以保留类型 2 的历史更改数据,以便于在特定时间点重新创建数据。这将创建一个完整的历史数据存储 (HDS)。

  • 支持类型 2 缓慢变化的维度。

  • 合并更改的记录时,它将创建一个新记录来存储更改的数据,并保留旧记录。

  • 新的 HDS 记录自动带有时间戳,以便您创建趋势分析和其他面向时间的分析数据集市。

您可以通过单击以下按钮启用历史数据:

  • 引入数据时,在设置中复制当前数据和以前数据的历史记录。

  • 在存储任务的设置对话框中保留历史更改记录和更改记录存档

信息注释Qlik Cloud 用作数据平台时,历史数据不可用。

HDS 数据存储在内部数据模式的先前表格中。您可以使用外部数据模式中的历史视图和实时历史视图来查看历史数据。

  • 历史视图合并当前表和先前表中的数据。此视图包括合并的所有更改。

  • 实时历史视图合并当前表、先前表和更改表中的数据。此视图还包括尚未合并的所有更改。

有关更多信息,请参阅云数据仓库中的数据集架构

计划存储任务

您可以将存储任务计划为定期更新。

  • 如果输入登陆数据任务使用满负载和 CDC,则只能设置基于时间的计划。

  • 如果输入登陆数据任务使用满负载,则可以设置基于时间的计划,或将任务设置为在输入登陆数据作业完成运行后运行。

    信息注释当您使用满负载通过输入登陆数据任务运行基于时间的计划时,请确保登陆任务仍在运行时,登陆中的每个已完成表都可用。这允许您同时运行登陆和存储,这可以缩短总加载时间。

单击数据任务上的 ...,然后选择计划以创建计划。默认计划设置继承自数据项目中的设置。有关默认设置的详细信息,请参阅存储默认值。始终要将计划设置为打开才能启用计划。

基于时间的计划

无论登陆类型如何,都可以使用基于时间的计划来运行存储数据任务。

  • 运行数据任务中选择在特定时间

您可以设置每小时、每天、每周或每月计划。

基于事件的计划

  • 运行数据任务中选择成功完成任何输入数据任务时

每次成功完成输入登陆数据任务时,存储任务都将运行。

信息注释登陆连续运行时,如果输入登陆数据任务使用满负载和 CDC,该选项不可用。

监视存储任务

您可以通过单击监视来监视存储任务的状态和进度。

有关更多信息,请参阅监视单个数据任务

对存储数据任务进行故障排除

当存储数据任务中的一个或多个表出现问题时,可能需要重新加载或重新创建数据。有几个选项可用于执行此操作。考虑按以下顺序使用哪个选项:

  1. 您可以在登陆时重新加载数据集。在登陆时重新加载数据集将触发存储中的比较过程,并更正数据保留类型 2 历史。在以下情况下也应考虑此选项:

    • 满负载是很久以前执行的,并且有大量的更改。

    • 如果已处理的满负载和变更表记录已作为登陆区维护的一部分被删除。

    从数据源登陆数据

  2. 您可以在存储数据任务中重新加载数据。

    如果启用了历史数据,则存储器中的重新加载可能会导致历史数据丢失。如果这是一个问题,请考虑从源重新加载平台。

    重新加载数据

  3. 您可以重新创建表。这将从源重新创建数据集。

    • 单击 ...,然后单击重新创建表重新创建表时,下游任务的反应就像源数据集上发生了截断和重新加载操作一样。

重新加载数据

您可以手动重新加载表。当一个或多个表出现问题时,这很有用。

  1. 打开数据任务,然后选择监视器选项卡。

  2. 选择要重新加载的表。

  3. 单击重新加载表

下次运行任务时将进行重新加载,由以下人员执行:

  1. 截断表。

  2. 将平台数据加载到表格中。

  3. 加载从重新加载时间累积的更改。

信息注释

通常,最好在登陆时重新加载数据集。在以下情况下尤其如此:

  • 如果启用了历史数据,则存储器中的重新加载可能会导致历史数据丢失。在登陆时重新加载数据集将触发存储中的比较过程,并更正数据保留类型 2 历史。

  • 如果满负载是很久以前执行的,并且有大量的变化。

  • 如果已处理的满负载和变更表记录已作为登陆区维护的一部分被删除。

将重新加载下游任务以应用更改并避免回溯。如果通过截断和重新加载来执行重新加载,则所有下游对象也将通过截断和再加载来重新加载。

重新加载登陆或存储数据任务后的下游影响

存储重新加载下游影响

下游的影响取决于执行的重新加载操作的类型和直接下游数据集的类型。标准处理意味着数据集将使用特定数据集的配置方法对数据进行反应和处理。

  • 在下游转换任务中:

    数据集转换是通过截断和加载来重新加载的。

    SQL 转换和转换流是通过与满负载进行比较并应用更改来重新加载的。

  • 紧随存储任务之后的数据集市任务通过截断和加载来重新加载。

通过单击取消重新加载,可以取消正在等待重新加载的表的重新加载。这不会影响已经重新加载的表,并且当前正在运行的重新加载将完成。

信息注释Qlik Cloud 作为目标数据平台的数据项目中不支持重新加载表。

存储设置

当数据平台是云数据仓库时,可以为存储数据任务设置属性。如果用 Qlik Cloud 作数据平台,请参阅使用 Qlik Cloud 作为数据平台的数据项目的存储设置

  • 单击设置

警告注释如果任务已经运行,则更改运行时设置以外的设置需要重新创建数据集。

一般设置

  • 数据库

    要在数据源中使用的数据库。

  • 任务模式

    可以更改存储数据任务模式的名称。默认名称是存储任务的名称。

  • 内部模式

    可以更改内部存储数据资产模式的名称。默认名称是附加了 _internal 的存储任务的名称。

  • 所有表格和视图的前缀

    可以为使用此任务创建的所有表和视图设置前缀。

    信息注释如果要在多个数据任务中使用数据库架构,则必须使用唯一的前缀。
  • 历史记录

    您可以保留历史更改数据,以便于在特定时间点重新创建数据。您可以使用历史视图和实时历史视图查看历史数据。选择保留历史记录和更改记录存档以启用历史更改数据。

  • 将存储与登陆进行比较时,您可以选择如何管理登陆中不存在的记录。

    • 标记为已删除

      这将执行登陆中不存在的记录的软删除。

    • 保留

      这将保留登陆中不存在的所有记录。

    信息注释存储数据任务中的数据集必须具有主键集。如果没有,每次重新加载登陆数据时,都会对存储数据任务执行初始加载。

视图设置

  • 实时视图

    使用实时视图以最小的延迟读取表。

    有关实时视图的更多信息,请参阅使用实时视图

    信息注释实时视图的效率低于标准视图,并且需要更多的资源,因为应用的数据需要重新计算。

运行时设置

  • 平行执行

    您可以将满负载的最大连接数设置为 1 到 5 之间的数字。

  • 仓库

    云数据仓库的名称。此设置仅适用于 Snowflake。

目录设置

  • 发布至目录

    选择此选项可将此版本的数据作为数据集发布到目录。目录内容将在下次准备此任务时更新。

有关目录的更多信息,请参阅通过目录工具理解您的数据

使用 Qlik Cloud 作为数据平台的数据项目的存储设置

当数据平台是作为数据平台的 Qlik Cloud 时,可以设置要在存储中使用的文件夹。

  1. 单击设置

  2. 选择要在存储中使用的文件夹。

  3. 准备好后单击确定

存储数据任务上的操作

您可以从任务菜单中的任务菜单对存储数据任务执行以下操作。

  • 打开

    这将打开存储数据任务。您可以查看表结构和有关数据任务的详细信息,并监视满负载和批量更改的状态。

  • 编辑

    您可以编辑任务的名称和描述,并添加标记。

  • 删除

    您可以删除数据任务。

  • 准备

    此操作将为任务的执行做好准备。相关准备包括:

    • 验证设计是否有效。

    • 创建或更改物理表和视图以匹配设计。

    • 为数据任务生成 SQL 代码

    • 为任务输出数据集创建或更改目录条目。

    您可以按照屏幕下部准备进度下的进度进行操作。

  • 验证数据集

    这将验证数据任务中包含的所有数据集。

    展开验证并调整以查看所有验证错误和设计更改。

  • 重新创建表

    这将从源重新创建数据集。重新创建表时,下游任务的反应就像源数据集上发生了截断和重新加载操作一样。有关更多信息,请参阅对存储数据任务进行故障排除

  • 停止

    您可以停止数据任务的操作。数据任务将不会继续更新表。

    信息注释此选项在数据任务运行时可用。
  • 恢复

    您可以从数据任务停止的时间点恢复其操作。

    信息注释此选项在数据任务停止时可用。
  • 转换数据

    基于规则和自定义 SQL 创建可重用的行级转换。这将创建“变换”数据任务。

    转换数据

  • 创建数据集市

    创建数据集市以利用您的数据任务。这将创建数据集市数据任务。

    创建和管理数据集市

限制

  • 如果数据任务包含数据集,并且您更改了连接中的任何参数,例如用户名、数据库或模式,则假定数据存在于新位置。如果不是这样,您可以:

    • 将源中的数据移动到新位置。

    • 使用相同的设置创建新的数据任务。

  • 在以 Qlik Cloud (QVD) 为目标的项目中,无法更改存储任务中的主键。更新登陆任务中的主键,重新创建登陆任务,然后重新创建存储任务。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!