存储流式数据集 | Qlik Cloud帮助
跳到主要内容 跳到补充内容

存储流式数据集

以下流式转换任务设置适用于使用流式数据源的 Qlik Open Lakehouse 项目。

您可以使用流式转换数据任务来存储和转换流式数据。流式数据通常包含需要展平的嵌套结构和数组,并且在存储阶段需要转换功能。流式转换任务提供了这些功能,使您能够在登陆流式数据后立即应用转换。

管理数据集粒度

您可以展平嵌套结构和数组以增加粒度。粒度显示在数据集视图中。单击 编辑 以编辑粒度:

  • 从数组中选择一个字段将导致目标表为每个元素包含一行。这将增加目标中的行数。

  • 您必须从相同的数组路径中选择字段。从不同路径选择字段将引发验证错误。

  • 显示的数据类型反映了所选的粒度。例如,ARRAY<INT> 在展平时变为 INT。有关详细信息,请参阅 数据类型映射

删除任务

如果数据任务未运行,并且同一项目中没有下游任务依赖项,则可以删除该数据任务。

  • 在项目的管道项目视图中,单击任务上的更多,然后选择删除

此任务创建的工件(表和视图)也将被删除,除非您选择保留它们。

信息注释请记住,您保留的工件将不再由该任务更新。

查看任务信息

点击菜单栏上的 信息 以查看任务信息,例如:

  • 所有者

  • 空间

  • 数据平台

  • 项目 ID

  • 数据任务运行时 ID

流式转换设置

当数据平台为 Qlik Open Lakehouse 时,您可以为流式转换数据任务设置属性。

  • 单击设置

常规设置

  • 任务模式

    您可以更改流式转换任务模式的名称。默认名称是存储任务的名称。

  • 内部模式

    您可以更改内部存储数据资产模式的名称。默认名称是附加了 _internal 的存储任务名称。

  • 所有表格和视图的前缀

    可以为使用此任务创建的所有表和视图设置前缀。

    信息注释如果要在多个数据任务中使用数据库架构,则必须使用唯一的前缀。
  • 要使用的文件夹

    您可以更改流式转换任务存储文件夹。

  • 新数据集的加载设置

    • 仅追加

      添加新记录而不修改现有数据。如果到达复制记录,则不强制执行键约束。

    • 应用更改

      根据关键字段更新现有记录并插入新记录。

      如果选择合并更改,您还可以选择以下内容:

      • 通过提供删除表达式软删除记录

        定义一个删除表达式以将记录标记为删除。

      • 保留历史记录(类型 2)

        保留已更改记录的先前版本。

  • 列取消嵌套

    • 保留嵌套列

      选择以保留嵌套数据。

    • 取消嵌套到单独的列中

      默认行为是将数据取消嵌套到单独的列中。

  • 目标表分区

    信息注释仅当在加载设置中选择仅追加时,此选项才可用。
    • 无分区

      创建的新表没有分区。

    • 按事件日期分区

      新表按事件摄取的日期进行分区。

  • 数据更改处理

    信息注释仅当在加载设置中选择应用更改时,此选项才可用。
    • 包含软删除:输入一个表达式以定义要标记为删除的记录。

    • 创建历史数据存储(类型 2):这将保留已更改记录的先前版本。

  • 保留管理
    • 无分区修剪

    • 当前快照分区修剪

表定义

  • hdr__from_timestamp

    启用此选项后,hdr__from_timestamp 标题列将显示在标准视图中。此外,如果在载入向导中选择了 按事件摄取日期分区,则 hdr__from_timestamp 将用作默认分区列。

    信息注释无论此设置如何,历史记录视图始终包含所有标准视图标题列。

运行时设置

  • Lakehouse 集群

    您可以更改 lakehouse 集群,但这必须支持流式工作负载或混合工作负载。

模式演变设置

  • 在根级别添加列

    当在根级别将新列添加到流式登陆任务时,将应用此设置。

    • 应用到目标

      自动将流式登陆任务中的新根级别列添加到流式转换任务中。这是默认设置。

    • 忽略

      不添加新的根级别列。

    • 停止任务

      如果在流式登陆任务中检测到新的根级别列,则停止转换任务。

  • 向结构添加列

    当在流式登陆任务的现有嵌套结构中添加新字段时,将应用此设置。

    • 应用到目标

      如果将新字段添加到登陆结构中,则自动将它们添加到流式转换任务的现有结构中。

    • 忽略

      不向现有结构添加新字段。

    • 停止任务

      如果在流式登陆任务中向结构添加了新字段,则停止转换任务。

  • 更改字段数据类型

    • 忽略

      不更改数据类型。

    • 停止任务

      如果在流式登陆任务中检测到数据类型更改,则停止转换任务。

数据集设置

以下设置适用于设计视图 > 数据集中的所有数据集。

单击数据集旁边的 更多,然后选择设置

  • 数据加载处理

    选择如何将数据加载到目标表中。

    • 仅追加

      添加新记录而不修改现有数据。如果到达复制记录,则不强制执行键约束。

    • 应用更改

      根据关键字段更新现有记录并插入新记录。

  • 数据更改处理

    信息注释仅当在加载设置中选择应用更改时,此选项才可用。
    • 包含软删除:输入一个表达式以定义要标记为删除的记录。这应该是一个在更改为软删除时验证为 True 的表达式。

      示例: operation = 'D'

    • 创建历史数据存储(类型 2):这将保留已更改记录的先前版本。

  • 分区列

    (可选)您可以选择分区列以优化性能。

    单击添加列以添加分区列,然后选择转换,并根据需要设置参数

  • 保留管理   

    分区修剪会删除早于保留期的分区。这不会物理删除数据,也不会立即影响较旧的快照。在过期之前,较旧的数据可能在较旧的快照中可用。

    信息注释仅当分区具有至少一个日期或日期时间列时才显示。
    • 无分区修剪

    • 当前快照分区修剪

  • 排序列

    信息注释仅当在加载设置中选择仅追加时,此选项才可用。

    (可选)您可以指定在 Iceberg 表的每个文件中对数据进行排序的列。在数据摄取期间,Iceberg 使用这些列对记录进行排序。在查询中经常使用的列上定义排序键可提高数据局部性,从而实现更快的读取性能和更高效的压缩。正确配置的排序键可确保您的数据得到最佳组织,以提高查询性能。

    单击添加列以添加排序列,然后设置排序顺序。

  • 快照过期持续时间

    此设置控制保留快照的时间,这会显著影响表大小和存储成本。对于频繁更新的表,建议使用较短的持续时间以帮助降低存储成本。

    信息注释输入 0 以禁用快照过期。
  • 标准视图标头

    • 从数据任务设置继承

      这是默认设置。如果只想为此数据集设置特定的标头列,请禁用。

    • hdr__from_timestamp

      启用此选项后,hdr__from_timestamp 标题列将显示在标准视图中。此外,如果在载入向导中选择了 按事件摄取日期分区,则 hdr__from_timestamp 将用作默认分区列。

      信息注释无论此设置如何,历史记录视图始终包含所有标准视图标题列。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!