跳到主要内容 跳到补充内容

湖登陆设置

可以配置 Lake 登陆数据任务的设置。

  • 打开登陆任务,然后单击工具栏中的设置

设置:<任务名称> 对话框打开。可用设置如下所述。

一般

  • 更新方法

    登陆任务总是以满负载开始。满负载完成后,可以使用以下方法之一保持登陆数据的最新状态:

    信息注释一旦登陆数据任务准备操作完成,就不可能更改更新方法。
    • 更改数据捕获 (CDC)

      使用 CDC(更改数据捕获)技术使登录数据保持最新。CDC 可能并非所有数据源都支持。CDC 不捕获 DDL 操作,例如重命名列或元数据更改。

      如果您的数据还包含不支持 CDC 的视图或表,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载作为更新方法的所有其他表和视图。

    • 重新加载

      所有登陆的数据都是从源重新加载的。如果您的源不支持 CDC,但可以与任何受支持的数据源一起使用,则此选项非常有用。

      您可以定期安排重新加载。

      信息注释使用 SaaS 应用程序预览连接器时,此设置不可用。预览版连接器由创建连接对话框和联机帮助中的 预览按钮图片 按钮指示。
  • 要使用的文件夹

    选择将数据放置到暂存区时要使用的文件夹。

    • 默认文件夹

      这将创建具有该默认名称的文件夹:<project name>/<data task name>

    • 根文件夹

      将数据存储在存储的根文件夹中。

    • 文件夹

      指定要使用的文件夹名称。

  • 数据上传

    • 最大文件大小 (MB)

      文件在关闭之前可以达到的最大大小。与并行执行选项结合使用时,较小的文件可能会上传得更快(取决于网络),并提高性能。然而,通常认为用小文件扰乱数据库是不好的做法。

      信息注释此设置适用于除 Qlik Cloud 之外的所有数据平台。
    • 使用压缩

      选中后,CSV 文件将在上传到 Google BigQuery 之前进行压缩(使用 gzip)。

      信息注释
      • 此设置仅与 Google BigQuery 相关。
      • 需要 数据移动网关 2023.5.16 或更高版本。

    元数据

    LOB 列

    • 包括 LOB 列并将列大小限制为 (KB):

      您可以选择在任务中包括 LOB 列,并设置最大 LOB 大小。大于最大大小的 LOB 将被截断。

      信息注释Azure Synapse Analytics 作为目标时,最大 LOB 大小不能超过 7MB。

    控制表

    选择要在目标平台上创建以下控制表中的哪一个:

    • 登陆状态:提供有关当前登录任务的详细信息,包括任务状态、任务消耗的内存量、尚未应用于数据平台的更改数量以及 数据移动网关 当前正在读取的源端点中的位置。
    • 挂起的表提供挂起的表的列表,以及它们被挂起的原因。
    • 登陆历史:提供有关任务历史记录的信息,包括登陆任务期间处理的记录数量和卷、CDC 任务结束时的延迟等。
    • DDL 历史记录:包含任务期间发生的所有受支持 DDL 更改的历史记录。

      DDL 历史记录表仅受以下目标平台的支持:

      信息注释Amazon Redshift、Amazon S3、Google Cloud Storage 和 Snowflake 需要 数据移动网关 2024.11.14 或更高版本。
      • Databricks

      • Microsoft Fabric
      • Amazon Redshift
      • Amazon S3
      • Google Cloud Storage
      • Snowflake

    有关每个控制表的详细说明,请参阅控制表

    满负载

    信息注释这些设置不适用于使用 SaaS 应用程序预览连接器定义的任务。预览连接器由“创建连接”对话框和联机帮助中的 预览按钮图片 按钮指示。

    性能调整

    • 并行加载的最大表数:输入一次要加载到目标中的最大表数。默认值为 5
    • 事务一致性超时(秒):输入在开始满负载操作之前等待打开的事务关闭的秒数。默认值为 600(10 分钟)。即使存在仍处于打开状态的事务,也会在达到超时值后开始满负载。

      信息注释要复制在满负载开始时打开但在达到超时值才提交的事务,需要重载目标表。
    • 满负载期间的提交率:可以一起传输的最大事件数。默认值为 10000

    在满负载完成之后

    创建主键或唯一索引:如果要将主键或唯一索引在数据平台上的创建延迟到满负载完成后,请选择此选项。

  • 对于初始加载

  • 当从 SaaS 应用程序源移动数据时,您可以设置如何执行初始满负载:

    信息注释 如果您使用 数据移动网关 访问数据源,则这些设置需要 2022.11.74 或更高版本。
    使用缓存数据

    此选项允许您使用在选择完整数据扫描的情况下生成元数据时读取的缓存数据。

    这减少了 API 使用和配额方面的开销,因为已经从源读取数据。自初始数据扫描以来的任何更改都可以通过更改数据捕获 (CDC) 获取。

    从数据源加载

    此选项从数据源执行新加载。此选项在以下情况下很有用:

    • 最近未执行元数据扫描。

    • 源数据集很小并且经常更改,而您不希望维护完整的更改历史记录。

    错误处理

    数据错误

    信息注释

    只有变更数据捕获 (CDC) 更新方法才支持数据错误处理。

    对于数据截断错误:选择在一个或多个特定记录中发生截断时要执行的操作。您可以从列表中选择以下选项之一:

    • 忽略:任务将继续,并忽略该错误。
    • 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
    • 停止任务:任务已停止,需要手动干预。

    对于其他数据错误:选择在一个或多个特定记录中发生错误时要执行的操作。您可以从列表中选择以下选项之一:

    • 忽略:任务将继续,并忽略该错误。
    • 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
    • 停止任务:任务已停止,需要手动干预。

    当其他数据错误达到时,升级错误处理(每个表):选中此复选框,当非截断数据错误(每个表)数量达到指定数量时,将错误处理升级。有效值为 1-10,000。

    升级操作:选择升级错误处理时应执行的操作。请注意,可用的操作取决于从上述针对其他数据错误下拉列表中选择的操作。

    • 挂起表(默认值):任务将继续,但带有错误记录的表中的数据将移动到错误状态,并且不会登陆其数据。

    • 停止任务:任务已停止,需要手动干预。

    表格错误

    通过该选项可控制何时触发表格错误处理策略。默认情况下,遇到表格错误后,重试三次之后将暂停表格或停止任务(根据所选操作)。有时,由于 SaaS 应用程序的计划维护,会出现表格错误。在这些情况下,默认重试次数可能不足以在触发表格错误处理策略前完成维护。这也取决于任务调度间隔,因为每次任务运行时都会执行重试。因此,举例来说,如果您安排任务每小时运行一次,而就在任务开始运行时,SaaS 应用程序离线进行维护,那么默认三次重试将允许 SaaS 应用程序离线长达三小时,而不会触发表格错误处理策略。如果维护窗口较长,则需要增加重试次数(或更改调度),以防触发表格错误处理策略。

    总之,如果您知道自己的 SaaS 应用程序要进行定期维护,最佳做法是根据调度增加重试次数,以便在不触发表错误处理策略的情况下完成维护。

    信息注释
    • 该选项只显示在配置了精简版或标准版 SaaS 应用程序连接器的任务当中。

    • 如果使用 数据移动网关 ,则需要 2024.11.70 或更高版本。

    遇到表格错误时:从下拉列表中选择以下选项之一:

    • 挂起表(默认):任务将继续,但带有错误记录的表中的数据将移动到错误状态,并且不会复制其数据。
    • 停止任务:任务已停止,需要手动干预。

    当表格错误达到时,升级错误处理(每个表):选中此复选框,当表格错误(每个表)数量达到指定数量时,将错误处理升级。有效值为 1-10,000。

    升级操作:表错误的升级策略设置为停止任务,无法更改。

    环境

    • 最大重试数选择此选项,然后指定发生可恢复环境错误时重试任务的最大尝试次数。重试任务达到指定次数后,任务将停止,需要手动干预。

      若要从不重试任务,请清除复选框或指定“0”。

      要无限次重试任务,请指定“-1”

      • 重试间隔(秒)使用计数器选择或键入系统在尝试重试任务之间等待的秒数。

        有效值为 0-2000。

    • 延长长时间停机的重试间隔选中此复选框可增加长时间停机的重试间隔。启用此选项后,每次重试之间的间隔将加倍,直到达到最大重试间隔(并根据指定的最大间隔继续重试)。
      • 最大重试间隔(秒)使用计数器选择或键入在启用增加长时间中断的重试间隔选项时任务重试之间等待的秒数。有效值为 0-2000。

    更改处理调谐

    信息注释只有当更新方法为更改数据捕获 (CDC) 时,此选项卡才可用。

    事务卸载调整

    该条件下将正在进行的事务卸载到磁盘

    事务数据通常保存在内存中,直到它完全提交到源或目标。但是,大于分配内存或未在指定时间限制内提交的事务将被卸载到磁盘。

    • 所有事务总内存大小超过 (MB):所有事务在卸载到磁盘之前可以在内存中占用的最大大小。默认值为 1024。
    • 事务持续时间超过(秒):每个事务在卸载到磁盘之前可以在内存中停留的最长时间。持续时间是从 Qlik Talend Data Integration 开始捕获事务的时间开始计算的。默认值为 60。

    批量调节

    此选项卡中的一些设置

    • 在间隔中应用分批更改:
      • 多于:每次应用批量更改之间等待的最短时间。默认值为 1

        增大多于值会降低对目标应用更改的频率,同时增加批次的大小。当将更改应用于为处理大批量而优化的目标数据库时,这可以提高性能。

      • 少于:每次应用批量更改之间等待的最长时间(在声明超时之前)。换句话说,就是可接受的最大延迟。默认值为 30。该值确定在达到大于值之后应用更改之前等待的最长时间。
    • 处理内存超过该值时强制应用批次 (MB):用于预处理的最大内存量。默认值为 500 MB。

      对于最大批处理大小,请将此值设置为可以分配至数据任务的最大内存量。当将更改应用于为处理大批量而优化的目标数据库时,这可以提高性能。

    • 将批处理更改同时应用于多个表:在应用来自多个源表的更改时,选择此选项应该会提高性能。

      • 表格最大数目:要同时应用批处理更改的最大表数。默认值为五。

      信息注释使用 Google BigQuery 作为数据平台时,不支持此选项。
    • 将每个更改处理语句应用的更改数限制为:选择此选项可限制单个更改处理语句中应用的更改数。默认值为 10,000。

      信息注释仅使用 Google BigQuery 作为数据平台时,才支持此选项。
    • 每笔交易的最小更改次数:每个事务中要包含的最小更改数。默认值为 1000

      信息注释

      当更改次数等于或大于每个事务的最小更改次数值时,或者当达到下面描述的应用前批处理事务的最长时间(秒)值时,将对目标应用更改,以先发生的为准。由于应用于目标的更改频率由这两个参数控制,因此对源记录的更改可能不会立即反映在目标记录中。

    • 应用前批处理事务的最长时间(秒):在声明超时之前分批收集事务的最长时间。默认值为 1

    间隔

    信息注释使用 SaaS 应用程序预览连接器时,此设置不可用。预览版连接器由创建连接对话框和联机帮助中的 预览按钮图片 按钮指示。
    • 每(分钟)读取更改

      设置从源读取更改的间隔(分钟)。有效范围为 1 到 1440。

      信息注释

      此选项仅在以下情况下可:

      • 使用 数据移动网关
      • 从 SaaS 应用程序源登陆数据
      • 该任务使用更改数据捕获 (CDC) 更新方法定义

    其他调谐

    • 语句缓存大小(语句数):要存储在服务器上以供以后执行(在对目标应用更改时)的最大准备语句数。默认值为 50。最大值为 200。
    • 更新主键列时执行 DELETE 和 INSERT 操作:此选项要求在源数据库中打开完整的补充日志记录。

    模式演变

    选择如何处理架构中以下类型的 DDL 更改。更改模式演变设置后,必须重新准备任务。选择如何处理架构中以下类型的 DDL 更改。

    信息注释当任务配置了 SaaS 应用程序预览版连接器时,只支持更改列数据类型 DDL 更改。要了解您的连接器是否处于预览状态,请参阅连接器帮助。
    DDL 更改应用于目标忽略挂起表停止任务
    添加列支持支持支持支持
    重命名列不支持不支持支持支持
    重命名表格不支持不支持支持支持
    更改列数据类型不支持支持支持支持
    创建表格

    如果使用选择规则添加与模式匹配的数据集,则将检测并添加符合模式的新表。

    支持支持不支持不支持

    字符替换

    您可以替换或删除目标数据库中的源字符,和/或替换或删除所选字符集不支持的源字符。

    信息注释
    • 所有字符都必须指定为 Unicode 代码点。

    • 字符替换也将在控制表上执行。
    • 无效值将由表格单元格右上角的红色三角形指示。将鼠标光标悬停在三角形上会显示错误消息。

    • 为任务定义的任何表级或全局转换都将在字符替换完成后执行。

    • 替换或删除源字符表中定义的替换操作在替换或删除所选字符集不支持的源字符表格中定义的替代操作之前执行。

    • 字符替换不支持 LOB 数据类型。

    替换或删除源字符

    使用替换或删除源字符表可以定义特定源字符的替换项。例如,当字符的 Unicode 表示在源平台和目标平台上不同时,这可能很有用。例如,在 Linux上,Shift_JIS 字符集中的减号字符表示为 U+2212,但在 Windows 上,它表示为 U+FF0D

    替换操作
    进行该操作

    定义替代操作

    1. 单击表上方的添加字符按钮。

    2. 源角色替换角色字段中分别指定源角色和目标角色。

      例如,要将字母“a”替换为字母“e”,请分别指定 00610065

      信息注释

      要删除指定的源字符,请在替换字符列中输入 0

    3. 重复步骤 1-2 以替换或删除其他字符。

    编辑指定的源或目标角色

    单击行末尾的 并选择编辑

    从表中删除条目

    单击行末尾的 并选择删除

    替换或删除所选字符集不支持的源字符

    使用不支持的源字符(按字符集)表为所选字符集不支持的所有字符定义一个替换字符。

    不支持的字符替换操作
    进行该操作

    定义或编辑替换操作。

    1. 从表中的字符集下拉列表中选择一个字符集。

      所选字符集不支持的任何字符将在目标上替换为下面步骤 2 中指定的字符。

    2. 替换字符列中,单击列中的任意位置,然后指定替换字符。例如,要将所有不支持的字符替换为字母“a”,请输入0061

      信息注释

      要删除所有不支持的字符,请输入0

    禁用替换操作。

    字符集下拉列表中选择空白条目。

    更多选项

    这些选项不会在 UI 中公开,因为它们仅与特定版本或环境相关。因此,除非 Qlik 支持或产品文档明确指示,否则不要设置这些选项。

    要设置选项,只需将该选项复制到添加功能名称字段中,然后单击添加。然后根据收到的说明设置该值或启用该选项。

    并行加载数据集片段

    信息注释此设置不适用于 SaaS 应用程序源,仅适用于源数据库和目标数据库的特定子集。

    在满负载期间,您可以通过将数据集拆分为并行加载的段来加速大型数据集的加载。表可以按数据范围、所有分区、所有子分区或特定分区进行拆分。

    有关更多信息,请参阅并行登陆数据集片段

    计划任务

    在以下用例中,您必须定义一个调度间隔,以保持目标数据的最新状态:

    • 不使用 数据移动网关 访问数据源
    • 使用不支持每隔读取更改设置的SaaS应用程序连接器

    该计划决定了目标数据集随源数据集的更改而更新的频率。时间表决定了更新频率,而数据集类型决定了更新方法。如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持,则将创建两个单独的子任务:一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对支持 CDC 的数据集的更改。在这种情况下,为了确保数据一致性,强烈建议不要为两个任务保持相同的调度间隔(如果您决定在将来更改更新频率)。

    有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔

    更改计划:

    1. 打开数据项目,然后执行以下操作之一:

      • 在任务视图中,单击数据任务上的 菜单按钮由 3 个水平点组成。 并选择计划
      • 在管道视图中,单击数据任务上的 菜单按钮由 3 个垂直点组成。 并选择计划
      • 打开登陆任务,然后单击计划工具栏按钮。
    2. 根据需要更改计划设置,然后单击确定
    信息注释如果下一个计划运行即将开始时数据任务仍在运行,则将跳过下一个或多个计划运行,直到任务完成。

    执行基于数据移动网关的任务的错失运行

    有时候,网络问题可能会导致与 数据移动网关 的连接中断。如果在下一次计划运行前没有恢复与 数据移动网关 的连接,数据任务将无法按计划运行。在这种情况下,您可以选择在连接恢复后是否立即执行一次运行。

    所有数据移动网关的默认设置Administration活动中心中定义。您可以按如下所述覆盖单个任务的这些设置。

    为此

    1. 打开项目,然后执行以下操作之一:

      • 在任务视图中,单击数据任务上的 菜单按钮由 3 个水平点组成。 并选择计划

      • 在管道视图中,单击数据任务上的 菜单按钮由 3 个垂直点组成。 并选择计划

      • 打开数据任务,然后单击计划工具栏按钮。

      计划 - <任务>对话框打开。

    2. 启用为此任务使用自定义设置

    3. 在对话框底部,选择以下其中一个运行错过的计划任务选项。

      • 尽快,然后按计划,如果需要在下一个计划实例之前运行任务

      • 按计划在下一个计划实例运行任务

    4. 保存设置。

    另请参阅:执行错过的计划任务运行

    本页面有帮助吗?

    如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!