存储数据流数据集
以下数据流转换任务设置适用于使用数据流源的 Qlik Open Lakehouse 项目。
您可以使用数据流转换数据任务存储和转换数据流数据。数据流数据通常包含需要展平的嵌套结构和数组,并且在存储阶段需要转换功能。这些功能可用于数据流转换任务,使您能够在登陆您的数据流数据后立即应用转换。
管理数据集粒度
您可以展平嵌套结构和数组以增加粒度。粒度显示在“数据集”视图中。单击 以编辑粒度:
-
从数组中选择一个字段将导致目标表为每个元素包含一行。这将增加目标中的行数。
-
您必须从同一数组路径中选择字段。从不同路径选择字段将引发验证错误。
-
显示的数据类型反映了所选粒度。例如,当 ARRAY<INT> 被展平时,它会变为 INT。有关更多信息,请参阅数据类型映射。
查看任务信息
点击菜单栏上的 以查看任务信息,例如:
-
所有者
-
空间
-
数据平台
-
项目 ID
-
数据任务运行时 ID
流媒体转换设置
存储设置
当数据平台是 Qlik Open Lakehouse 时,您可以设置流式转换数据任务的属性。
-
单击设置。
一般设置
-
任务模式
您可以更改流式转换任务模式的名称。默认名称是存储任务的名称。
-
内部架构
可以更改内部存储数据资产模式的名称。默认名称是附加了 _internal 的存储任务的名称。
- 所有表格和视图的前缀
可以为使用此任务创建的所有表和视图设置前缀。
信息注释如果要在多个数据任务中使用数据库架构,则必须使用唯一的前缀。 -
要使用的文件夹
您可以更改流式转换任务存储文件夹。
-
新数据集的加载设置
-
只附加
添加新记录而不修改现有数据。如果出现复制记录,则不强制执行键约束。
-
应用更改
根据关键字段更新现有记录并插入新记录。
如果您选择合并更改,您还可以选择以下选项:
-
通过提供删除表达式软删除记录
定义删除表达式以标记要删除的记录。
-
保留历史记录(类型 2)
保留已更改记录的以前版本。
-
-
-
列取消嵌套
-
保留嵌套列
选择保留嵌套数据。
-
展开到单独的列中
默认行为是将数据取消嵌套到单独的列中。
-
-
目标表分区
信息注释仅当在加载设置中选择了仅追加时,此选项才可用。-
无分区
创建新表时没有分区。
-
按事件日期分区
新表按事件摄取日期分区。
-
-
数据变更处理
信息注释仅当在加载设置中选择了应用更改时,此选项才可用。-
包括软删除:输入一个表达式来定义要标记为删除的记录。
-
创建历史数据存储(类型 2):这将保留已更改记录的先前版本。
-
- 保留管理
-
无分区修剪
-
当前快照分区修剪
-
运行时设置
-
Lakehouse 集群
您可以更改湖屋集群,但该集群必须支持数据流工作负载或混合工作负载。
模式演变设置
-
在根级别添加列
当在根级别向流式登陆任务添加新列时,此设置适用。
-
应用于目标
自动将新根级别列从流式登陆任务添加到流式转换任务。这是默认设置。
-
忽略
不添加新的根级别列。
-
停止任务
如果在数据流登陆任务中检测到新的根级别列,则停止转换任务。
-
-
向结构中添加列
当在数据流登陆任务中的现有嵌套结构中添加新字段时,此设置适用。
- 应用于目标
如果新字段已添加到登陆结构中,则自动将其添加到数据流转换任务中的现有结构。
-
忽略
不向现有结构添加新字段。
-
停止任务
如果 Streaming 登陆任务中的结构添加了新字段,则停止转换任务。
- 应用于目标
-
更改字段数据类型
- 忽略
不更改数据类型。
-
停止任务
如果 Streaming 登陆任务中检测到数据类型更改,则停止转换任务。
- 忽略
数据集设置
以下设置适用于所有数据集,位于设计视图 > 数据集中。
单击数据集旁边的并选择设置。
-
数据加载处理
选择如何将数据加载到目标表中。
-
只附加
添加新记录而不修改现有数据。如果出现复制记录,则不强制执行键约束。
-
应用更改
根据关键字段更新现有记录并插入新记录。
-
-
数据变更处理
信息注释此选项仅在加载设置中选中应用更改时可用。-
包含软删除:输入一个表达式来定义要标记为删除的记录。如果更改是软删除,则此表达式应验证为 True。
示例: operation = 'D'
-
创建历史数据存储(类型 2):这将保留已更改记录的先前版本。
-
-
分隔列
您可以选择分区列以优化性能。
点击添加列以添加分区列,然后选择转换,并在需要时设置参数。
-
保留管理
分区修剪会移除超出保留期的分区。这不会物理删除数据,并且不会立即影响旧快照。旧数据可能在旧快照中可用,直到它们过期。
信息注释仅当分区至少包含一个日期或日期时间列时显示。-
无分区修剪
-
当前快照分区修剪
-
-
对列进行排序
信息注释仅当在加载设置中选择仅追加时,此选项才可用。您可以选择指定在 Iceberg 表的每个文件中对数据进行排序的列。在数据摄取过程中,Iceberg 使用这些列对记录进行排序。在查询中经常使用的列上定义排序键可以提高数据局部性,从而提高读取性能和压缩效率。正确配置的排序键可确保您的数据在查询性能方面得到最佳组织。
单击添加列以添加排序列,然后设置排序顺序。
-
快照过期时间
此设置控制快照的保留时长,这会显著影响表大小和存储成本。对于频繁更新的表,建议缩短持续时间以帮助降低存储成本。
信息注释输入 0 以禁用快照过期。