湖登陆设置
以下湖登陆任务设置适用于 Qlik Open Lakehouse 项目。
可以配置 Lake 登陆数据任务的设置。
-
打开登陆任务,然后单击工具栏中的设置。
设置:<任务名称> 对话框打开。可用设置如下所述。
一般
更新方法
登陆任务总是以满负载开始。满负载完成后,可以使用以下方法之一保持登陆数据的最新状态:
-
更改数据捕获 (CDC)
使用 CDC(更改数据捕获)技术使登录数据保持最新。CDC 可能并非所有数据源都支持。CDC 不捕获 DDL 操作,例如重命名列或元数据更改。
如果您的数据还包含不支持 CDC 的视图或表,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载作为更新方法的所有其他表和视图。
-
重新加载
所有登陆的数据都是从源重新加载的。如果您的源不支持 CDC,但可以与任何受支持的数据源一起使用,则此选项非常有用。
您可以定期安排重新加载。
要使用的文件夹
选择将数据放置到暂存区时要使用的文件夹。
-
默认文件夹
这将创建具有该默认名称的文件夹:<project name>/<data task name>。
-
根文件夹
将数据存储在存储的根文件夹中。
-
文件夹
指定要使用的文件夹名称。
数据上传
文件属性
配置上传数据所用的文件设置。
-
字段分隔符
数据源文件中所使用的字段分隔符。默认值为“,”。 -
空值
可选的默认字符串,用于替换数据源文件中的空值。 -
记录分隔符
数据源文件中所使用的记录分隔符。默认值为“\n”。 -
引号字符
源数据文件中使用的引号字符。默认值为 """。 -
引号转义符
源数据文件中使用的引号转义字符。默认值为 """。 -
最大文件大小 (KB)
文件在关闭之前可以达到的最大大小。与并行执行选项结合使用时,较小的文件可能会上传得更快(取决于网络),并提高性能。然而,通常认为用小文件扰乱数据库是不好的做法。
-
压缩文件方式
选中后,CSV 文件将使用 GZIP 压缩。
信息注释- 需要 数据移动网关 2023.5.16 或更高版本。
元数据
LOB 列
-
包括 LOB 列并将列大小限制为 (KB):
您可以选择在任务中包括 LOB 列,并设置最大 LOB 大小。大于最大大小的 LOB 将被截断。
满负载
性能调整
- 并行加载的最大表数:输入一次要加载到目标中的最大表数。默认值为 5。
-
事务一致性超时(秒):输入在开始满负载操作之前等待打开的事务关闭的秒数。默认值为 600(10 分钟)。即使存在仍处于打开状态的事务,也会在达到超时值后开始满负载。
信息注释要复制在满负载开始时打开但在达到超时值后才提交的事务,需要重载目标表。 - 满负载期间的提交率:可以一起传输的最大事件数。默认值为 10000。
在满负载完成之后
创建主键或唯一索引:如果要将主键或唯一索引在数据平台上的创建延迟到满负载完成后,请选择此选项。
错误处理
只有变更数据捕获 (CDC) 更新方法才支持数据错误处理。
对于数据截断错误:选择在一个或多个特定记录中发生截断时要执行的操作。您可以从列表中选择以下选项之一:
- 忽略:任务将继续,并忽略该错误。
- 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
- 停止任务:任务已停止,需要手动干预。
对于其他数据错误:选择在一个或多个特定记录中发生错误时要执行的操作。您可以从列表中选择以下选项之一:
- 忽略:任务将继续,并忽略该错误。
- 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
- 停止任务:任务已停止,需要手动干预。
当其他数据错误达到时,升级错误处理(每个表):选中此复选框,当非截断数据错误(每个表)数量达到指定数量时,将错误处理升级。有效值为 1-10,000。
升级操作:选择升级错误处理时应执行的操作。请注意,可用的操作取决于从上述针对其他数据错误下拉列表中选择的操作。
-
挂起表(默认值):任务将继续,但带有错误记录的表中的数据将移动到错误状态,并且不会登陆其数据。
- 停止任务:任务已停止,需要手动干预。
表格错误
返回表格错误前的重试次数
通过该选项可控制何时触发表格错误处理策略。默认情况下,遇到表格错误后,重试三次之后将暂停表格或停止任务(根据所选操作)。有时,由于 SaaS 应用程序的计划维护,会出现表格错误。在这些情况下,默认重试次数可能不足以在触发表格错误处理策略前完成维护。这也取决于任务调度间隔,因为每次任务运行时都会执行重试。因此,举例来说,如果您安排任务每小时运行一次,而就在任务开始运行时,SaaS 应用程序离线进行维护,那么默认三次重试将允许 SaaS 应用程序离线长达三小时,而不会触发表格错误处理策略。如果维护窗口较长,则需要增加重试次数(或更改调度),以防触发表格错误处理策略。
总之,如果您知道自己的 SaaS 应用程序要进行定期维护,最佳做法是根据调度增加重试次数,以便在不触发表错误处理策略的情况下完成维护。
-
该选项只显示在配置了精简版或标准版 SaaS 应用程序连接器的任务当中。
-
如果使用 数据移动网关 ,则需要 2024.11.70 或更高版本。
遇到表格错误时:从下拉列表中选择以下选项之一:
- 挂起表(默认):任务将继续,但带有错误记录的表中的数据将移动到错误状态,并且不会复制其数据。
- 停止任务:任务已停止,需要手动干预。
当表格错误达到时,升级错误处理(每个表):选中此复选框,当表格错误(每个表)数量达到指定数量时,将错误处理升级。有效值为 1-10,000。
升级操作:表错误的升级策略设置为停止任务,无法更改。
环境
-
最大重试数选择此选项,然后指定发生可恢复环境错误时重试任务的最大尝试次数。重试任务达到指定次数后,任务将停止,需要手动干预。
若要从不重试任务,请清除复选框或指定“0”。
要无限次重试任务,请指定“-1”
-
重试间隔(秒)使用计数器选择或键入系统在尝试重试任务之间等待的秒数。
有效值为 0-2000。
-
- 延长长时间停机的重试间隔选中此复选框可增加长时间停机的重试间隔。启用此选项后,每次重试之间的间隔将加倍,直到达到最大重试间隔(并根据指定的最大间隔继续重试)。
- 最大重试间隔(秒)使用计数器选择或键入在启用增加长时间中断的重试间隔选项时任务重试之间等待的秒数。有效值为 0-2000。
更改处理调谐
事务卸载调整
该条件下将正在进行的事务卸载到磁盘:事务数据通常保存在内存中,直到它完全提交到源或目标。但是,大于分配内存或未在指定时间限制内提交的事务将被卸载到磁盘。
- 所有事务总内存大小超过 (MB):所有事务在卸载到磁盘之前可以在内存中占用的最大大小。默认值为 1024。
- 事务持续时间超过(秒):每个事务在卸载到磁盘之前可以在内存中停留的最长时间。持续时间是从 Qlik Talend Data Integration 开始捕获事务的时间开始计算的。默认值为 60。
批量调节
每笔交易的最小更改次数:每个事务中要包含的最小更改数。默认值为 1000。
信息注释当更改次数等于或大于每个事务的最小更改次数值时,或者当达到下面描述的应用前批处理事务的最长时间(秒)值时,将对目标应用更改,以先发生的为准。由于应用于目标的更改频率由这两个参数控制,因此对源记录的更改可能不会立即反映在目标记录中。
- 应用前批处理事务的最长时间(秒):在声明超时之前分批收集事务的最长时间。默认值为 1。
其他调谐
- 语句缓存大小(语句数):要存储在服务器上以供以后执行(在对目标应用更改时)的最大准备语句数。默认值为 50。最大值为 200。
更新主键列时执行 DELETE 和 INSERT 操作:此选项要求在源数据库中打开完整的补充日志记录。
模式演变
选择如何处理架构中以下类型的 DDL 更改。更改模式演变设置后,必须重新准备任务。选择如何处理架构中以下类型的 DDL 更改。
| DDL 更改 | 应用于目标 | 忽略 | 挂起表 | 停止任务 |
|---|---|---|---|---|
| 添加列 | 支持 | 支持 | 支持 | 支持 |
| 重命名列 | 不支持 | 不支持 | 支持 | 支持 |
| 重命名表格 | 不支持 | 不支持 | 支持 | 支持 |
| 更改列数据类型 | 不支持 | 支持 | 支持 | 支持 |
| 创建表格 如果使用选择规则添加与模式匹配的数据集,则将检测并添加符合模式的新表。 | 支持 | 支持 | 不支持 | 不支持 |
字符替换
您可以替换或删除目标数据库中的源字符,和/或替换或删除所选字符集不支持的源字符。
所有字符都必须指定为 Unicode 代码点。
- 字符替换也将在控制表上执行。
无效值将由表格单元格右上角的红色三角形指示。将鼠标光标悬停在三角形上会显示错误消息。
为任务定义的任何表级或全局转换都将在字符替换完成后执行。
在替换或删除源字符表中定义的替换操作在替换或删除所选字符集不支持的源字符表格中定义的替代操作之前执行。
- 字符替换不支持 LOB 数据类型。
替换或删除源字符
使用替换或删除源字符表可以定义特定源字符的替换项。例如,当字符的 Unicode 表示在源平台和目标平台上不同时,这可能很有用。例如,在 Linux上,Shift_JIS 字符集中的减号字符表示为 U+2212,但在 Windows 上,它表示为 U+FF0D。
| 要 | 进行该操作 |
|---|---|
定义替代操作 |
|
编辑指定的源或目标角色 | 单击行末尾的 |
从表中删除条目 | 单击行末尾的 |
替换或删除所选字符集不支持的源字符
使用不支持的源字符(按字符集)表为所选字符集不支持的所有字符定义一个替换字符。
| 要 | 进行该操作 |
|---|---|
定义或编辑替换操作。 |
|
禁用替换操作。 | 从字符集下拉列表中选择空白条目。 |
更多选项
这些选项不会在 UI 中公开,因为它们仅与特定版本或环境相关。因此,除非 Qlik 支持或产品文档明确指示,否则不要设置这些选项。
要设置选项,只需将该选项复制到添加功能名称字段中,然后单击添加。然后根据收到的说明设置该值或启用该选项。
并行加载数据集片段
在满负载期间,您可以通过将数据集拆分为并行加载的段来加速大型数据集的加载。表可以按数据范围、所有分区、所有子分区或特定分区进行拆分。
有关更多信息,请参阅并行登陆数据集片段
在不使用 数据移动网关 进行工作的情况下安排 CDC 任务
数据移动网关 不支持 Qlik Talend Cloud Starter 订阅,并且对于其他订阅级别是可选的。当不使用 数据移动网关 工作时,您可以通过设置计划间隔来保持目标数据的最新状态。该计划决定了目标数据集随源数据集的更改而更新的频率。时间表决定了更新频率,而数据集类型决定了更新方法。如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持,则将创建两个单独的子任务:一个用于重载不支持 CDC 的数据集,另一个用于捕获对支持 CDC 的数据集的更改。在这种情况下,为了确保数据的一致性,强烈建议为两个子任务设置相同的计划。
有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔。
更改计划:
打开数据项目,然后执行以下操作之一:
- 在任务视图中,单击数据任务上的
并选择计划。
- 在管道视图中,单击数据任务上的
并选择计划。
- 打开登陆任务,然后单击计划工具栏按钮。
- 在任务视图中,单击数据任务上的
- 根据需要更改计划设置,然后单击确定。
按钮指示。