存储流式数据集
以下流式转换任务设置适用于使用流式数据源的 Qlik Open Lakehouse 项目。
您可以使用流式转换数据任务来存储和转换流式数据。流式数据通常包含需要展平的嵌套结构和数组,并且在存储阶段需要转换功能。流式转换任务提供了这些功能,使您能够在登陆流式数据后立即应用转换。
管理数据集粒度
您可以展平嵌套结构和数组以增加粒度。粒度显示在数据集视图中。单击 以编辑粒度:
-
从数组中选择一个字段将导致目标表为每个元素包含一行。这将增加目标中的行数。
-
您必须从相同的数组路径中选择字段。从不同路径选择字段将引发验证错误。
-
显示的数据类型反映了所选的粒度。例如,ARRAY<INT> 在展平时变为 INT。有关详细信息,请参阅 数据类型映射。
删除任务
如果数据任务未运行,并且同一项目中没有下游任务依赖项,则可以删除该数据任务。
-
在项目的管道项目视图中,单击任务上的
,然后选择删除。
此任务创建的工件(表和视图)也将被删除,除非您选择保留它们。
查看任务信息
点击菜单栏上的 以查看任务信息,例如:
-
所有者
-
空间
-
数据平台
-
项目 ID
-
数据任务运行时 ID
流式转换设置
当数据平台为 Qlik Open Lakehouse 时,您可以为流式转换数据任务设置属性。
-
单击设置。
常规设置
-
任务模式
您可以更改流式转换任务模式的名称。默认名称是存储任务的名称。
-
内部模式
您可以更改内部存储数据资产模式的名称。默认名称是附加了 _internal 的存储任务名称。
- 所有表格和视图的前缀
可以为使用此任务创建的所有表和视图设置前缀。
信息注释如果要在多个数据任务中使用数据库架构,则必须使用唯一的前缀。 -
要使用的文件夹
您可以更改流式转换任务存储文件夹。
-
新数据集的加载设置
-
仅追加
添加新记录而不修改现有数据。如果到达复制记录,则不强制执行键约束。
-
应用更改
根据关键字段更新现有记录并插入新记录。
如果选择合并更改,您还可以选择以下内容:
-
通过提供删除表达式软删除记录
定义一个删除表达式以将记录标记为删除。
-
保留历史记录(类型 2)
保留已更改记录的先前版本。
-
-
-
列取消嵌套
-
保留嵌套列
选择以保留嵌套数据。
-
取消嵌套到单独的列中
默认行为是将数据取消嵌套到单独的列中。
-
-
目标表分区
信息注释仅当在加载设置中选择仅追加时,此选项才可用。-
无分区
创建的新表没有分区。
-
按事件日期分区
新表按事件摄取的日期进行分区。
-
-
数据更改处理
信息注释仅当在加载设置中选择应用更改时,此选项才可用。-
包含软删除:输入一个表达式以定义要标记为删除的记录。
-
创建历史数据存储(类型 2):这将保留已更改记录的先前版本。
-
- 保留管理
-
无分区修剪
-
当前快照分区修剪
-
表定义
-
hdr__from_timestamp
启用此选项后,hdr__from_timestamp 标题列将显示在标准视图中。此外,如果在载入向导中选择了 按事件摄取日期分区,则 hdr__from_timestamp 将用作默认分区列。
信息注释无论此设置如何,历史记录视图始终包含所有标准视图标题列。
运行时设置
-
Lakehouse 集群
您可以更改 lakehouse 集群,但这必须支持流式工作负载或混合工作负载。
模式演变设置
-
在根级别添加列
当在根级别将新列添加到流式登陆任务时,将应用此设置。
-
应用到目标
自动将流式登陆任务中的新根级别列添加到流式转换任务中。这是默认设置。
-
忽略
不添加新的根级别列。
-
停止任务
如果在流式登陆任务中检测到新的根级别列,则停止转换任务。
-
-
向结构添加列
当在流式登陆任务的现有嵌套结构中添加新字段时,将应用此设置。
- 应用到目标
如果将新字段添加到登陆结构中,则自动将它们添加到流式转换任务的现有结构中。
-
忽略
不向现有结构添加新字段。
-
停止任务
如果在流式登陆任务中向结构添加了新字段,则停止转换任务。
- 应用到目标
-
更改字段数据类型
- 忽略
不更改数据类型。
-
停止任务
如果在流式登陆任务中检测到数据类型更改,则停止转换任务。
- 忽略
数据集设置
以下设置适用于设计视图 > 数据集中的所有数据集。
单击数据集旁边的 ,然后选择设置。
-
数据加载处理
选择如何将数据加载到目标表中。
-
仅追加
添加新记录而不修改现有数据。如果到达复制记录,则不强制执行键约束。
-
应用更改
根据关键字段更新现有记录并插入新记录。
-
-
数据更改处理
信息注释仅当在加载设置中选择应用更改时,此选项才可用。-
包含软删除:输入一个表达式以定义要标记为删除的记录。这应该是一个在更改为软删除时验证为 True 的表达式。
示例: operation = 'D'
-
创建历史数据存储(类型 2):这将保留已更改记录的先前版本。
-
-
分区列
(可选)您可以选择分区列以优化性能。
单击添加列以添加分区列,然后选择转换,并根据需要设置参数。
-
保留管理
分区修剪会删除早于保留期的分区。这不会物理删除数据,也不会立即影响较旧的快照。在过期之前,较旧的数据可能在较旧的快照中可用。
信息注释仅当分区具有至少一个日期或日期时间列时才显示。-
无分区修剪
-
当前快照分区修剪
-
-
排序列
信息注释仅当在加载设置中选择仅追加时,此选项才可用。(可选)您可以指定在 Iceberg 表的每个文件中对数据进行排序的列。在数据摄取期间,Iceberg 使用这些列对记录进行排序。在查询中经常使用的列上定义排序键可提高数据局部性,从而实现更快的读取性能和更高效的压缩。正确配置的排序键可确保您的数据得到最佳组织,以提高查询性能。
单击添加列以添加排序列,然后设置排序顺序。
-
快照过期持续时间
此设置控制保留快照的时间,这会显著影响表大小和存储成本。对于频繁更新的表,建议使用较短的持续时间以帮助降低存储成本。
信息注释输入 0 以禁用快照过期。 -
标准视图标头
-
从数据任务设置继承
这是默认设置。如果只想为此数据集设置特定的标头列,请禁用。
-
hdr__from_timestamp
启用此选项后,hdr__from_timestamp 标题列将显示在标准视图中。此外,如果在载入向导中选择了 按事件摄取日期分区,则 hdr__from_timestamp 将用作默认分区列。
信息注释无论此设置如何,历史记录视图始终包含所有标准视图标题列。
-