数据管道项目设置
您可以在 Qlik Talend Data Integration 中更改数据管道项目的设置。这些属性对于项目和所有包含的数据任务是通用的。某些设置仅适用于特定的数据平台。
-
在项目中单击设置。
数据仓库数据管道项目设置
数据平台
您可以更改以下设置:
-
连接
项目的连接。
-
到暂存区的连接
当数据平台为 Snowflake 时,此选项不可用。
元数据
您可以为内部工件设置后缀,并为创建的视图设置默认后缀。
-
工件首选项
-
所有模式的前缀:要添加到项目中创建的数据模式的前缀。当导入的项目与导出的项目位于同一云数据仓库中时,这非常有用。
-
内部模式的后缀:用于存储内部工件的模式所使用的后缀。
-
模式名称的默认大小写:所有模式名称的默认大小写。如果您的数据库配置为强制大小写,则此选项将不起作用。
-
-
外部视图的后缀
为项目中包含的数据任务内创建的视图设置默认后缀。
新任务的默认设置
您可以为项目中创建的数据任务设置默认值。创建数据任务时,您可以更改该值。
您可以设置默认数据库,以便为所有类型的数据任务创建目标工件。
登陆任务默认值
默认数据库
您可以使用项目的默认数据库或指定其他数据库。
使用 数据移动网关 时通过代理访问目标
-
使用 Data Movement gateway 时,通过代理连接到
使用 数据移动网关 时,您可以通过代理连接到目标平台和暂存平台(区域)。
有关配置 数据移动网关 以使用代理服务器的更多信息,请参阅 设置 Qlik Cloud 租户和代理服务器。
-
目标平台
信息注释在使用 Snowflake、Google BigQuery 和 Databricks 时可用。 -
暂存平台
信息注释在使用 Azure Synapse Analytics、Amazon Redshift 和 Databricks 时可用。
-
存储任务默认值
-
历史数据存储(类型 2)
您可以保留历史更改数据,以便轻松重新创建特定时间点的数据。您可以使用历史视图和实时历史视图来查看历史数据。
-
实时视图
实时视图为每个选定的源表显示一个视图,该视图将表与更改表中的更改合并。这为查询提供了数据的实时视图,而无需等待下一个应用周期。
默认数据库
您可以使用项目的默认数据库或指定其他数据库。
目录
-
发布到目录
选择此选项可将此版本的数据作为数据集发布到目录。下次准备此任务时,目录内容将更新。
默认视图类型
-
标准视图
使用标准视图将查询结果显示为表格。
-
Snowflake 安全视图
将 Snowflake 安全视图用于指定用于数据隐私或敏感信息保护的视图,例如为限制访问不应向底层表的所有用户公开的敏感数据而创建的视图。 Snowflake 安全视图的执行速度可能比标准视图慢。
已注册数据任务默认值
默认数据库
您可以使用项目的默认数据库或指定其他数据库。
目录
-
发布到目录
选择此选项可将此版本的数据作为数据集发布到目录。下次准备此任务时,目录内容将更新。
增量加载设置
当选择使用高水位的增量时,这些设置可用。
-
更改表
如果更改在同一个表中,请选择更改在同一个表中。
如果不是,请清除更改在同一个表中并指定更改表模式。
-
水位列
在名称中设置水位列的名称。
-
“起始日期”列
您可以通过开始时间或使用选定的列来指示“起始日期”。
如果选择选定的“起始日期”列,则必须定义“起始日期”模式。
-
软删除
您可以通过选择更改包括软删除并定义指示表达式,将软删除包含在更改中。
如果更改是软删除,则指示表达式的计算结果应为 True。
示例:${is_deleted} = 1
-
前映像
您可以通过选择前映像并定义指示表达式,在更改表更改中过滤掉前映像记录。
如果行包含更新前的映像,则指示表达式的计算结果应为 True。
示例:${header__change_oper} = 'B'
转换任务默认值
-
历史数据存储(类型 2)
您可以保留历史更改数据,以便轻松重新创建特定时间点的数据。您可以使用历史视图和实时历史视图来查看历史数据。
物化
-
非物化(仅视图)
选择此选项可仅创建动态执行转换的视图。
-
物化(表和视图)
选择此选项可同时创建表和视图。
默认数据库
您可以使用项目的默认数据库或指定其他数据库。
目录
-
发布到目录
选择此选项可将此版本的数据作为数据集发布到目录。下次准备此任务时,目录内容将更新。
默认视图类型
-
标准视图
使用标准视图将查询结果显示为表格。
-
Snowflake 安全视图
将 Snowflake 安全视图用于指定用于数据隐私或敏感信息保护的视图,例如为限制访问不应向底层表的所有用户公开的敏感数据而创建的视图。 Snowflake 安全视图的执行速度可能比标准视图慢。
默认表类型
这些设置仅在以 Snowflake 为数据平台的项目中可用。
-
表类型
您可以选择使用哪种表格类型:
-
Snowflake 表格
-
Snowflake-托管 Iceberg 表格
您必须在 Snowflake 外部卷中设置外部卷的默认名称。
-
-
要使用的云存储文件夹
选择将数据放置到暂存区时要使用的文件夹。
-
默认文件夹
这将创建具有该默认名称的文件夹:<project name>/<data task name>。
-
根文件夹
将数据存储在存储的根文件夹中。
-
文件夹
指定要使用的文件夹名称。
-
-
与 Snowflake 开放目录同步
启用此选项可让 Snowflake 开放目录管理云文件存储中的文件。
数据集市任务默认值
默认数据库
您可以使用项目的默认数据库或指定其他数据库。
目录
-
发布到目录
选择此选项可将此版本的数据作为数据集发布到目录。下次准备此任务时,目录内容将更新。
运行时默认值
您可以为项目中包含的数据资产定义默认运行时性能设置。
登陆默认值
-
您可以在并行执行中设置最大数据库连接数。
-
您可以将默认调度设置设为基于时间的调度。这将是创建的每个存储任务的默认值。
-
如果项目平台是 Snowflake,您可以设置默认数据仓库。
-
您可以将默认调度设置设为基于时间的调度或在成功完成任何输入数据任务时。这将是创建的每个转换任务的默认值。
-
如果项目平台是 Snowflake,您可以设置默认数据仓库。
-
您可以将默认调度设置设为基于时间的调度或在成功完成任何输入数据任务时。这将是创建的每个数据集市任务的默认值。
-
如果项目平台是 Snowflake,您可以设置默认数据仓库。
-
如果项目平台是 Snowflake,您可以设置默认数据仓库。
Qlik Open Lakehouse 数据管道项目设置
数据平台
您可以更改以下设置:
-
数据目录连接:选择现有连接或单击新建以添加新的数据目录连接。 您还可以编辑现有连接,并通过单击测试连接来验证连接是否有效。
-
登陆目标连接:选择用于登陆数据的 S3 存储段,或单击新建以添加新的存储段位置。您还可以编辑现有连接,并通过单击测试连接来验证连接是否有效。
元数据
您可以为内部工件设置后缀,并为创建的视图设置默认后缀。
-
工件首选项
-
所有模式的前缀:要添加到项目中创建的数据模式的前缀。当导入的项目与导出的项目位于同一云数据仓库中时,这非常有用。
-
内部模式的后缀:用于存储内部工件的模式所使用的后缀。
-
模式名称的默认大小写:所有模式名称的默认大小写。如果您的数据库配置为强制大小写,则此选项将不起作用。
-
-
外部视图的后缀
为项目中包含的数据任务内创建的视图设置默认后缀。
-
哈希
您可以设置在对列进行哈希处理时使用的哈希盐字符串,例如用于屏蔽敏感信息。这将在将输入列与哈希盐字符串连接后生成输入列的 SHA-256 哈希。
您可以使用项目 ID 作为盐字符串,也可以设置自定义盐字符串。
新任务的默认设置
您可以为项目中创建的数据任务设置默认值。创建数据任务时,您可以更改该值。
您可以设置默认数据库,以便为所有类型的数据任务创建目标工件。
数据湖登陆任务默认值
要使用的文件夹
请根据您希望将文件写入哪个存储段文件夹,选择以下选项之一:
-
默认文件夹
默认文件夹格式为 <您的项目名称>/<您的任务名称>
-
根文件夹
文件将写入根存储段文件夹。
-
文件夹
指定一个文件夹名称。如果该文件夹尚不存在,则会在数据任务期间创建该文件夹。
信息注释 文件夹名称不能包含特殊字符(例如 @、#、! 等)。
存储任务默认值
-
历史数据存储(类型 2)
您可以保留历史更改数据,以便轻松重新创建特定时间点的数据。您可以使用历史视图和实时历史视图来查看历史数据。
目录
-
发布到目录
选择此选项可将此版本的数据作为数据集发布到目录。下次准备此任务时,目录内容将更新。
暂存区中要使用的文件夹
请根据您希望将文件写入哪个存储段文件夹,选择以下选项之一:
-
默认文件夹
默认文件夹格式为 <您的项目名称>/<您的任务名称>
-
根文件夹
文件将写入根存储段文件夹。
-
文件夹
指定一个文件夹名称。如果该文件夹尚不存在,则会在数据任务期间创建该文件夹。
信息注释 文件夹名称不能包含特殊字符(例如 @、#、! 等)。
流式登陆任务默认值
您可以为项目中创建的流式登陆任务设置默认值。
要使用的文件夹
请根据您希望将文件写入哪个存储段文件夹,选择以下选项之一:
-
默认文件夹
默认文件夹格式为 <您的项目名称>/<您的任务名称>
-
根文件夹
文件将写入根存储段文件夹。
-
文件夹
指定一个文件夹名称。如果该文件夹尚不存在,则会在数据任务期间创建该文件夹。
信息注释 文件夹名称不能包含特殊字符(例如 @、#、! 等)。
文件夹保留
选择保留数据的时间:
-
不删除数据和元数据
数据和元数据都不会被删除。
-
保留期后删除数据和元数据
保留期过后,数据和元数据将被删除。
-
保留期后删除元数据。数据由外部系统删除。
此期限过后,元数据将被清除。底层数据(例如 S3 对象)不会被 Qlik 删除,而是由外部系统删除。
流式转换任务默认值
您可以为项目中创建的流式转换任务设置默认值。
目录
-
发布到目录
选择此选项可将此版本的数据作为数据集发布到目录。下次准备此任务时,目录内容将更新。
要使用的文件夹
请根据您希望将文件写入哪个存储段文件夹,选择以下选项之一:
-
默认文件夹
默认文件夹格式为 <您的项目名称>/<您的任务名称>
-
根文件夹
文件将写入根存储段文件夹。
-
文件夹
指定一个文件夹名称。如果该文件夹尚不存在,则会在数据任务期间创建该文件夹。
信息注释 文件夹名称不能包含特殊字符(例如 @、#、! 等)。
表定义
配置默认情况下在此项目的所有流式转换任务的标准视图中显示的标准视图标题列。
-
hdr__from_timestamp
启用此选项后,hdr__from_timestamp 标题列将显示在标准视图中。此外,如果在载入向导中选择了 按事件摄取日期分区,则 hdr__from_timestamp 将用作默认分区列。您可以在任务或数据集级别覆盖此设置。
信息注释无论此设置如何,历史记录视图始终包含所有标准视图标题列。
运行时
您可以为项目中包含的数据任务定义默认运行时性能设置。
数据湖登陆任务默认值
-
您可以在并行执行中设置最大数据库连接数。
存储任务默认值
Lakehouse 集群
(可选)为存储任务选择专用的 Lakehouse 集群。
流式登陆任务默认值
读取器数量
选择要使用的读取器数量。该值必须介于 1 和 1,000 之间。
Lakehouse 集群
(可选)为存储任务选择专用的 Lakehouse 集群。
流式转换任务默认值
Lakehouse 集群
(可选)为存储任务选择专用的 Lakehouse 集群。
-
如果项目平台是 Snowflake,您可以设置默认数据仓库。