跳到主要内容 跳到补充内容

登陆设置

可以配置登陆数据任务的设置。

  • 打开登陆任务,然后单击工具栏中的设置

设置:<任务名称> 对话框打开。可用设置如下所述。

一般

  • 数据库

    要在目标中使用的数据库。

    信息注释将数据登陆到 Qlik Cloud 时(经由 Amazon S3),此选项不可用。
  • 任务模式

    可以更改登陆数据任务模式的名称。默认名称为登陆

    信息注释将数据登陆到 Qlik Cloud 时(经由 Amazon S3),此选项不可用。
  • 所有表格和视图的前缀

    可以为使用此任务创建的所有表和视图设置前缀。

    信息注释将数据登陆到 Qlik Cloud 时(经由 Amazon S3),此选项不可用。
    信息注释如果要在多个数据任务中使用数据库架构,则必须使用唯一的前缀。
  • 更新方法

    登陆任务总是以满负载开始。满负载完成后,可以使用以下方法之一保持登陆数据的最新状态:

    信息注释一旦登陆数据任务准备操作完成,就不可能更改更新方法。
    • 更改数据捕获 (CDC)

      使用 CDC(更改数据捕获)技术使登录数据保持最新。CDC 可能并非所有数据源都支持。CDC 不捕获 DDL 操作,例如重命名列或元数据更改。

      如果您的数据还包含不支持 CDC 的视图或表,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载和比较作为更新方法的所有其他表和视图。

    • 重新加载并比较

      所有登陆的数据都是从源重新加载的。如果您的源不支持 CDC,但可以与任何受支持的数据源一起使用,则此选项非常有用。

      您可以定期安排重新加载。

  • 要在暂存区中使用的文件夹

    对于需要暂存区域的数据平台(例如,Databricks 和 Azure Synapse Analytics),您可以选择在登陆数据时使用哪个文件夹。

    • 默认文件夹

      这将创建具有该默认名称的文件夹:<project name>/<data task name>

    • 根文件夹

      将数据存储在存储的根文件夹中。

      信息注释此选项仅在将数据登陆到 Qlik Cloud 时可用(经由 Amazon S3)。
    • 文件夹

      指定要使用的文件夹名称。

  • 更改处理间隔

    您可以设置从源处理更改之间的间隔。

    信息注释此选项仅在将数据登陆到 Qlik Cloud 时可用(经由 Amazon S3)。
  • 使用数据移动网关时的代理服务器

    信息注释此选项仅在通过 Data Movement gateway 访问目标时可用。

    数据移动 网关连接到云数据仓库和存储区时,您可以选择使用代理服务器。

    有关将 数据移动 网关配置为使用代理服务器的更多信息,请参阅设置 Qlik Cloud 租户和代理服务器

    • 使用代理连接到云数据仓库

      信息注释使用 Snowflake、Google BigQuery 和 Databricks 时可用。
    • 使用代理连接到存储

      信息注释使用 Azure Synapse Analytics、Amazon Redshift 和 Databricks 时可用。

数据上传

  • 最大文件大小 (MB)

    文件在关闭之前可以达到的最大大小。与并行执行选项结合使用时,较小的文件可能会上传得更快(取决于网络),并提高性能。然而,通常认为用小文件扰乱数据库是不好的做法。

    信息注释此设置适用于除 Qlik Cloud 之外的所有数据平台。
  • 使用压缩

    选中后,CSV 文件将在上传到 Google BigQuery 之前进行压缩(使用 gzip)。

    信息注释
    • 此设置仅与 Google BigQuery 相关。
    • 需要 数据移动网关 2023.5.16 或更高版本。

元数据

LOB 列

  • 包括 LOB 列并将列大小限制为 (KB):

    您可以选择在任务中包括 LOB 列,并设置最大 LOB 大小。大于最大大小的 LOB 将被截断。

    信息注释Azure Synapse Analytics 作为目标时,最大 LOB 大小不能超过 7MB。

控制表

选择要在目标平台上创建以下控制表中的哪一个:

  • 登陆状态:提供有关当前登录任务的详细信息,包括任务状态、任务消耗的内存量、尚未应用于数据平台的更改数量以及 数据移动网关 当前正在读取的源端点中的位置。
  • 挂起的表提供挂起的表的列表,以及它们被挂起的原因。
  • 登陆历史:提供有关任务历史记录的信息,包括登陆任务期间处理的记录数量和卷、CDC 任务结束时的延迟等。
  • DDL 历史记录:包含任务期间发生的所有受支持 DDL 更改的历史记录。

    信息注释

    DDL 历史记录表仅受以下目标平台的支持:

    • Databricks

    • Microsoft Fabric

有关每个控制表的详细说明,请参阅控制表

满负载

性能调整

  • 并行加载的最大表数:输入一次要加载到目标中的最大表数。默认值为 5
  • 事务一致性超时(秒):输入在开始满负载操作之前等待打开的事务关闭的秒数。默认值为 600(10 分钟)。即使存在仍处于打开状态的事务,也会在达到超时值后开始满负载。

    信息注释要复制在满负载开始时打开但在达到超时值才提交的事务,需要重新加载目标表。
  • 满负载期间的提交率:可以一起传输的最大事件数。默认值为 10000

在满负载完成之后

创建主键或唯一索引:如果要将主键或唯一索引在数据平台上的创建延迟到满负载完成后,请选择此选项。

  • 对于初始加载

  • 当从 SaaS 应用程序源移动数据时,您可以设置如何执行初始满负载:

    信息注释 如果您使用 数据移动网关 访问数据源,则这些设置需要 2022.11.74 或更高版本。
    使用缓存数据

    此选项允许您使用在选择完整数据扫描的情况下生成元数据时读取的缓存数据。

    这减少了 API 使用和配额方面的开销,因为已经从源读取数据。自初始数据扫描以来的任何更改都可以通过更改数据捕获 (CDC) 获取。

    从数据源加载

    此选项从数据源执行新加载。此选项在以下情况下很有用:

    • 最近未执行元数据扫描。

    • 源数据集很小并且经常更改,而您不希望维护完整的更改历史记录。

    错误处理

    数据错误

    信息注释

    只有变更数据捕获 (CDC) 更新方法才支持数据错误处理。

    对于数据截断错误:选择在一个或多个特定记录中发生截断时要执行的操作。您可以从列表中选择以下选项之一:

    • 忽略:任务将继续,并忽略该错误。
    • 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
    • 停止任务:任务已停止,需要手动干预。

    对于其他数据错误:选择在一个或多个特定记录中发生错误时要执行的操作。您可以从列表中选择以下选项之一:

    • 忽略:任务将继续,并忽略该错误。
    • 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
    • 停止任务:任务已停止,需要手动干预。

    当其他数据错误达到时,升级错误处理(按表):选中此复选框可在非截断数据错误数(按表)达到指定数量时升级错误处理。有效值为 1-10,000。

    升级操作:选择升级错误处理时应执行的操作。请注意,可用的操作取决于从上述针对其他数据错误下拉列表中选择的操作。

    • 挂起表(默认值):任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会landed其数据。

    • 停止任务:任务已停止,需要手动干预。

    表格错误

    遇到表格错误时:从下拉列表中选择以下选项之一:

    • 挂起表(默认值):任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
    • 停止任务:任务已停止,需要手动干预。

    当表格错误达到时,升级错误处理(按表):选中此复选框可在表错误数(按表)达到指定数量时升级错误处理。有效值为 1-10,000。

    升级操作:表错误的升级策略设置为停止任务,无法更改。

    环境

    • 最大重试数选择此选项,然后指定发生可恢复环境错误时重试任务的最大尝试次数。重试任务达到指定次数后,任务将停止,需要手动干预。

      若要从不重试任务,请清除复选框或指定“0”。

      要无限次重试任务,请指定“-1”

      • 重试间隔(秒)使用计数器选择或键入系统在尝试重试任务之间等待的秒数。

        有效值为 0-2000。

    • 延长长时间停机的重试间隔选中此复选框可增加长时间停机的重试间隔。启用此选项后,每次重试之间的间隔将加倍,直到达到最大重试间隔(并根据指定的最大间隔继续重试)。
      • 最大重试间隔(秒)使用计数器选择或键入在启用增加长时间中断的重试间隔选项时任务重试之间等待的秒数。有效值为 0-2000。

    更改处理调谐

    信息注释只有当更新方法为更改数据捕获 (CDC) 时,此选项卡才可用。

    事务卸载调整

    • 该条件下将正在进行的事务卸载到磁盘

      事务数据通常保存在内存中,直到它完全提交到源或目标。但是,大于分配内存或未在指定时间限制内提交的事务将被卸载到磁盘。

      • 所有事务总内存大小超过 (MB):所有事务在卸载到磁盘之前可以在内存中占用的最大大小。默认值为 1024。
      • 事务持续时间超过(秒):每个事务在卸载到磁盘之前可以在内存中停留的最长时间。持续时间是从 Qlik Talend Data Integration 开始捕获事务的时间开始计算的。默认值为 60。

    批量调节

    此选项卡中的一些设置

    • 在间隔中应用分批更改:
      • 多于:每次应用批量更改之间等待的最短时间。默认值为 1

        增大多于值会降低对目标应用更改的频率,同时增加批次的大小。当将更改应用于为处理大批量而优化的目标数据库时,这可以提高性能。

      • 少于:每次应用批量更改之间等待的最长时间(在声明超时之前)。换句话说,就是可接受的最大延迟。默认值为 30。该值确定在达到大于值之后应用更改之前等待的最长时间。
    • 处理内存超过该值时强制应用批次 (MB):用于预处理的最大内存量。默认值为 500 MB。

      对于最大批处理大小,请将此值设置为可以分配至数据任务的最大内存量。当将更改应用于为处理大批量而优化的目标数据库时,这可以提高性能。

    • 将批处理更改同时应用于多个表:在应用来自多个源表的更改时,选择此选项应该会提高性能。

      • 表格最大数目:要同时应用批处理更改的最大表数。默认值为五。

      信息注释使用 Google BigQuery 作为数据平台时,不支持此选项。
    • 将每个更改处理语句应用的更改数限制为:选择此选项可限制单个更改处理语句中应用的更改数。默认值为 10,000。

      信息注释仅使用 Google BigQuery 作为数据平台时,才支持此选项。
    • 每笔交易的最小更改次数:每个事务中要包含的最小更改数。默认值为 1000

      信息注释

      当更改次数等于或大于每个事务的最小更改次数值时,或者当达到下面描述的应用前批处理事务的最长时间(秒)值时,将对目标应用更改,以先发生的为准。由于应用于目标的更改频率由这两个参数控制,因此对源记录的更改可能不会立即反映在目标记录中。

    • 应用前批处理事务的最长时间(秒):在声明超时之前分批收集事务的最长时间。默认值为 1

    间隔

    • 每(分钟)读取更改

      设置从源读取更改的间隔(分钟)。有效范围为 1 到 1440。

      信息注释

      此选项仅在以下情况下可:

      • 使用 数据移动网关
      • 从 SaaS 应用程序源登陆数据
      • 该任务使用更改数据捕获 (CDC) 更新方法定义

    其他调谐

    • 语句缓存大小(语句数):要存储在服务器上以供以后执行(在对目标应用更改时)的最大准备语句数。默认值为 50。最大值为 200。
    • 更新主键列时执行 DELETE 和 INSERT 操作:此选项要求在源数据库中打开完整的补充日志记录。

    模式演变

    选择如何处理架构中以下类型的 DDL 更改。更改模式演变设置后,必须重新准备任务。选择如何处理架构中以下类型的 DDL 更改。

    DDL 更改 应用于目标 忽略 挂起表 停止任务
    添加列 支持 支持 支持 支持
    重命名列 不支持 不支持 支持 支持
    重命名表格 不支持 不支持 支持 支持
    更改列数据类型 不支持 支持 支持 支持
    创建表格

    如果使用选择规则添加与模式匹配的数据集,则将检测并添加符合模式的新表。

    支持 支持 不支持 不支持

    字符替换

    您可以替换或删除目标数据库中的源字符,和/或替换或删除所选字符集不支持的源字符。

    信息注释
    • 所有字符都必须指定为 Unicode 代码点。

    • 字符替换也将在控制表上执行。
    • 无效值将由表格单元格右上角的红色三角形指示。将鼠标光标悬停在三角形上会显示错误消息。

    • 为任务定义的任何表级或全局转换都将在字符替换完成后执行。

    • 替换或删除源字符表中定义的替换操作在替换或删除所选字符集不支持的源字符表格中定义的替代操作之前执行。

    • 字符替换不支持 LOB 数据类型。

    替换或删除源字符

    使用替换或删除源字符表可以定义特定源字符的替换项。例如,当字符的 Unicode 表示在源平台和目标平台上不同时,这可能很有用。例如,在 Linux上,Shift_JIS 字符集中的减号字符表示为 U+2212,但在 Windows 上,它表示为 U+FF0D

    替换操作
    进行该操作

    定义替代操作

    1. 单击表上方的添加字符按钮。

    2. 源角色替换角色字段中分别指定源角色和目标角色。

      例如,要将字母“a”替换为字母“e”,请分别指定 00610065

      信息注释

      要删除指定的源字符,请在替换字符列中输入 0

    3. 重复步骤 1-2 以替换或删除其他字符。

    编辑指定的源或目标角色

    单击行末尾的 并选择编辑

    从表中删除条目

    单击行末尾的 并选择删除

    替换或删除所选字符集不支持的源字符

    使用不支持的源字符(按字符集)表为所选字符集不支持的所有字符定义一个替换字符。

    不支持的字符替换操作
    进行该操作

    定义或编辑替换操作。

    1. 从表中的字符集下拉列表中选择一个字符集。

      所选字符集不支持的任何字符将在目标上替换为下面步骤 2 中指定的字符。

    2. 替换字符列中,单击列中的任意位置,然后指定替换字符。例如,要将所有不支持的字符替换为字母“a”,请输入0061

      信息注释

      要删除所有不支持的字符,请输入0

    禁用替换操作。

    字符集下拉列表中选择空白条目。

    更多选项

    这些选项不会在 UI 中公开,因为它们仅与特定版本或环境相关。因此,除非 Qlik 支持或产品文档明确指示,否则不要设置这些选项。

    要设置选项,只需将该选项复制到添加功能名称字段中,然后单击添加。然后根据收到的说明设置该值或启用该选项。

    在不使用 数据移动网关 进行工作的情况下安排 CDC 任务

    数据移动网关 不支持 Qlik Talend Cloud Starter 订阅,并且对于其他订阅级别是可选的。当不使用 数据移动网关 工作时,您可以通过设置计划间隔来保持目标数据的最新状态。该计划决定了目标数据集随源数据集的更改而更新的频率。时间表决定了更新频率,而数据集类型决定了更新方法。如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持,则将创建两个单独的子任务:一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对支持 CDC 的数据集的更改。在这种情况下,为了确保数据的一致性,强烈建议为两个子任务设置相同的计划。

    有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔

    更改计划:

    1. 打开数据项目,然后执行以下操作之一:

      • 在任务视图中,单击数据任务上的 菜单按钮由 3 个水平点组成。 并选择计划
      • 在管道视图中,单击数据任务上的 菜单按钮由 3 个垂直点组成。 并选择计划
      • 打开登陆任务,然后单击计划工具栏按钮。
    2. 根据需要更改计划设置,然后单击确定
    信息注释如果下一个计划运行即将开始时数据任务仍在运行,则将跳过下一个或多个计划运行,直到任务完成。

    本页面有帮助吗?

    如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!