跳到主要内容 跳到补充内容

注册数据平台上已存在的数据

您可以注册数据平台上已经存在的数据,以整理和转换数据,并创建数据集市。这使您可以使用除 Qlik Cloud 数据集成 以外的其他工具提供的数据,例如 Qlik Replicate 或 Stitch

注册数据时,将创建两个数据任务。

  • 注册数据

    注册数据涉及创建视图,以便为创建数据集准备好数据。

  • 存储

    这涉及到基于注册数据生成和存储数据集。

    存储数据集

当您已注册数据时,可以用多种方式使用生成的数据集。

  • 您可以在分析应用程序中使用数据集。

  • 您可以创建变换。

  • 您可以创建数据集市。

注册数据

您可以注册数据项目中定义的云数据仓库中存在的数据。生成的数据集将存储在同一个云数据仓库中。

有关数据项目的更多信息,请参阅创建数据管道

  1. 单击新增,然后单击注册数据

  2. 为数据任务添加名称描述

    单击下一步

  3. 选择要注册的数据。

    选择要包含的数据

    单击下一步

    显示设置

  4. 选择更新方法中数据的更新方式。

    如果数据是通过 Qlik Replicate 或 Stitch 复制的,请选择增量使用高水印

    • 使用使用高水印的增量以使用高水印模式增量处理数据更改。如果数据是由 Qlik Replicate(启用了满负载和存储更改)或 Stitch 复制的,则建议使用此方法。

      有关详细信息,请参阅更新方法

    • 当数据只加载过一次,或者使用完全重新加载进行更新时,请使用与当前存储进行比较

  5. 预览在摘要中创建的两个数据任务,如果需要,请重命名它们。

    提示注释命名存储数据任务中的数据库模式时使用这些名称。由于模式只能与一个任务关联,请考虑使用唯一的名称,以避免与使用相同数据平台的其他数据项目中的数据任务发生冲突。
  6. 选择是要打开注册的数据任务,还是返回到数据项目。

    准备好后,单击完成

现在创建了两个数据任务。要开始复制数据,您需要:

  • 准备注册的数据任务。

    在数据任务中单击准备

    创建工件后,数据任务状态为已注册

  • 准备并运行存储数据任务。

    有关更多信息,请参阅存储数据集

选择要包含的数据

当您选择要包含的数据时,可以选择特定的表格或视图,或使用选择规则包括或排除表格组。

使用 % 作为通配符来定义架构和表的选择条件。

  • %.% 定义所有架构中的所有表。

  • Public.% 定义所有架构 Public 中的所有表。

选择条件根据您的选择提供预览。

您现在可以:

  • 根据选择条件创建规则以包含或排除一组表。

    单击从选择标准添加规则以创建规则,然后选择包含排除

    您可以在选择规则下查看规则。

  • 选择一个或多个数据集,然后单击添加选定的数据集

    您可以在显式选择的数据集下查看添加的数据集。

选择规则仅适用于当前的表和视图集,而不适用于将来添加的表和视图。

注册的数据设置

可以设置注册的数据任务的特性。

  • 单击设置

一般

  • 数据库

    要在目标中使用的数据库。

  • 数据任务模式

    可以更改数据任务模式的名称。

  • 所有表格和视图的前缀

    可以为使用此任务创建的所有表和视图设置前缀。

    信息注释如果要在多个数据任务中使用数据库架构,则必须使用唯一的前缀。

更新方法

更改检测

  • 当数据只加载过一次,或者使用完全重新加载进行更新时,请使用与当前存储进行比较

  • 使用使用高水印的增量以使用高水印方法增量处理数据更改。

    此选项要求所有表都定义了主键。您可以在数据集视图中为缺少主键的表手动定义主键。

增量加载设置

当选择使用高水印的增量时,这些设置可用。

  • 如果数据是由具有满负载和存储更改的 Qlik Replicate 任务复制的,请将增量加载设置设置为Qlik Replicate设置

  • 如果数据是通过 Stitch 数据管道复制的,并且源表定义了主键,请将增量加载设置设定为 Stitch 默认设置

  • 否则,请将增量加载设置设置为自定义,然后自己定义设置。

增量加载设置
设置 自定义 Qlik Replicate 设置 Stitch 默认设置
更改表格

如果更改在同一个表中,请选择更改在相同表中

如果没有,请取消选择更改在同一个表中,并在更改表模式中指定更改表模式。

${SOURCE_TABLE_NAME}__ct table 更改在同一表格中
水印列 名称中设置水印列的名称。 header__change_seq _SDC_BATCHED_AT
“起始日期”列

您可以通过批次开始时间或使用选定的列来指示“起始日期”。

如果选择选定的“起始日期”列,则必须定义一个“开始日期”模式

header__timestamp _SDC_BATCHED_AT

您可以将其更改为通过批处理开始时间指示“起始日期”,也可以选择其他列。

软删除

通过选择更改包括软删除并定义指示表达式,可以在更改中包括软删除。

如果更改是软删除,则指示表达式的计算结果应为 True。

示例:${is_deleted} = 1

${header__change_oper} = 'D'

通过选择更改包括软删除并定义指示表达式,可以在更改中包括软删除。

如果更改是软删除,则指示表达式的计算结果应为 True。

示例:${is_deleted} = 1

之前图像

通过选择图像之前并定义指示表达式,可以筛选出更改表更改中的之前图像记录。

如果行包含更新前的图像,则指示表达式的计算结果应为 True。

示例:${header__change_oper} = 'B'

${header__change_oper} = 'B' 数据中没有以前的图像记录。

推荐的 Qlik Replicate 配置

当注册使用存储更改的 Qlik Replicate 任务复制的数据时,建议使用这些 Qlik Replicate 任务设置。

  • 应以选项满负载存储更改配置 Qlik Replicate 任务。

  • 存储更改设置 > 更改表中,确保包含以下更改表格列并使用其默认名称:

    • [header__]change_seq

    • [header__]change_oper

    • [header__] timestamp

  • 存储更改设置 > 更改表格中,将更新内容设置为仅存储之后图像.

    这减少了每次更新的空间,因为不包括之前的图像。如果您不打算使用之前的图像,请使用此选项。

  • 存储更改设置 > 更改表中,将后缀设置为默认值 __ct

  • 不要应用以下全局转换:

    • 重命名更改表

    • 重命名更改表方案

  • 如果可以更新源表中的主键,请在更改处理调整中更新主键列选项时启用 DELETEINSERT

    旧记录的历史将不会保存在新记录中。

    信息注释该选项自 Qlik Replicate November 2022 起受支持。

注册数据任务上的操作

您可以从任务菜单中的任务菜单对注册数据任务执行以下操作。

  • 打开

    这将打开数据任务。您可以查看表结构和有关数据任务的详细信息。

  • 编辑

    您可以编辑任务的名称和描述,并添加标记。

  • 删除

    您可以删除数据任务。

    不会删除源数据。

  • 同步数据集

    这将同步无法自动调整的设计更改。

  • 重新创建表

    这将从源重新创建数据集。

    还必须重新创建使用此数据任务的所有下游数据任务。

  • 存储数据

    您可以创建使用此登陆数据任务中的数据的存储数据任务。

设置“起始日期”列时的历史注意事项

如果在下游任务中启用了历史数据,并且使用了“起始日期”列,则不支持回溯。这意味着,如果更改批次包含存储中不存在的记录的旧版本,则更改批次还必须包括该记录的所有新版本。如果不包括较新的版本,它们将被删除。

在这些示例中,存储从一开始就包含以下记录:

起始日期 名称 城市
2/Oct/2023 Joe New York
3/Oct/2023 Joe London

示例 1:  

如果插入以下更改批次:

起始日期 名称 城市
4/Oct/2023 Joe Paris

正如预期的那样,存储的结果是:

起始日期 名称 城市
2/Oct/2023 Joe New York
3/Oct/2023 Joe London
4/Oct/2023 Joe Paris

示例 2:  

但是,如果在更改批次中插入以下较旧的记录:

起始日期 名称 城市
1/Oct/2023 Joe Berlin

这将导致在存储中删除较新的记录:

起始日期 名称 城市
1/Oct/2023 Joe Berlin

示例 3:  

要维护历史记录,更改批次必须包括较新的记录:

起始日期 名称 城市
1/Oct/2023 Joe Berlin
2/Oct/2023 Joe New York
3/Oct/2023 Joe London

这将确保历史记录也保存在存储中:

起始日期 名称 城市
1/Oct/2023 Joe Berlin
2/Oct/2023 Joe New York
3/Oct/2023 Joe London

注意事项

  • 不要在 Stitch 复制中使用历史记录选项。使用选项将历史数据保存在 Qlik Cloud 数据集成 中。

数据容量考虑事项

  • 如果注册的表没有主键,则每次运行都会执行完全重新加载。这将计入您每月注册的数据容量配额。这是因为存储将需要比较所有记录才能找到更改。

  • 已注册数据的数据容量会在存储中计入。这意味着注册数据中的删除被转换为存储的插入或更新(软删除),并计入数据容量。

  • 如果在两个存储数据任务中使用来自已注册数据的表,则软删除、插入和更新将在数据容量中计入两次。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!