登陆设置 | Qlik Cloud帮助
跳到主要内容 跳到补充内容

登陆设置

您可以配置登陆数据任务的设置。

  • 打开登陆任务,然后单击工具栏中的设置

将打开设置:<Task-Name>对话框。下面描述了可用的设置。

常规

  • 数据库

    要在目标中使用的数据库。

    信息注释将数据登陆到 Qlik Cloud(通过 Amazon S3)时,此选项不可用。
  • 任务模式

    您可以更改登陆数据任务模式的名称。默认名称为 landing

    信息注释将数据登陆到 Qlik Cloud(通过 Amazon S3)时,此选项不可用。
  • 模式名称的默认大写

    您可以设置所有模式名称的默认大写。如果您的数据库配置为强制大写,则此选项将无效。

  • 所有表和视图的前缀

    您可以为使用此任务创建的所有表和视图设置前缀。

    信息注释将数据登陆到 Qlik Cloud(通过 Amazon S3)时,此选项不可用。
    信息注释如果要在多个数据任务中使用数据库模式,则必须使用唯一前缀。
  • 更新方法

    登陆任务总是以满负载开始。满负载完成后,可以使用以下方法之一保持登陆数据的最新状态:

    信息注释一旦登陆数据任务准备操作完成,就不可能更改更新方法。
    • 更改数据捕获 (CDC)

      使用 CDC(更改数据捕获)技术使登录数据保持最新。CDC 可能并非所有数据源都支持。CDC 不捕获 DDL 操作,例如重命名列或元数据更改。

      如果您的数据还包含不支持 CDC 的视图或表,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载和比较作为更新方法的所有其他表和视图。

    • 重新加载并比较

      所有登陆的数据都是从源重新加载的。如果您的源不支持 CDC,但可以与任何受支持的数据源一起使用,则此选项非常有用。

      您可以定期安排重新加载。

  • 加载方法

    复制到 Snowflake 目标时,您可以选择以下加载方法之一:

    • 批量加载(默认)

      如果选择批量加载,您就可以在数据上传选项卡中调整加载参数。

    • Snowpipe Streaming

      信息注释

      Snowpipe 数据流只有在满足以下条件时才可供选择:

      • 更改数据捕获 (CDC) 更新方法已启用。
      • Snowflake 连接器中的验证机制设置为密钥对
      • 如果使用 数据移动网关 ,则需要 2024.11.45 或更高版本。

      如果您选择 Snowpipe 数据流,请确保您熟悉使用此方法时的限制和注意事项。此外,如果您选择雪管数据流,然后切换到重新加载和比较更新方法,加载方法将自动切换回批量加载

    选择 Snowpipe 数据流而非批量加载的主要原因是:

    • 成本更低:由于 Snowpipe 数据流不使用 Snowflake 仓库,因此运营成本应大大降低,但这取决于您的具体使用情况。

    • 减少延迟: 由于数据直接流向目标数据表(而不是通过暂存),因此从数据源复制到目标数据表的速度应该更快。

    提示注释使用 Snowpipe 数据流时,初始满负载可能会比批量加载慢很多。为了优化加载性能,尤其是在加载大型数据集时,最佳做法是将 Snowpipe 数据流 并行加载特性结合使用。
  • 要在暂存区中使用的文件夹

    对于需要暂存区的数据平台(例如 Databricks 和 Azure Synapse Analytics),您可以选择在登陆数据时要使用的文件夹。

    • 默认文件夹

      这将创建一个具有默认名称的文件夹:<project name>/<data task name>

    • 根文件夹

      将数据存储在存储的根文件夹中。

      信息注释仅当将数据登陆到 Qlik Cloud(通过 Amazon S3)时,此选项才可用。
    • 文件夹

      指定要使用的文件夹名称。

  • 更改处理间隔

    您可以设置处理来自源的更改之间的间隔。

    信息注释仅当将数据登陆到 Qlik Cloud(通过 Amazon S3)时,此选项才可用。
  • 使用 Data Movement gateway 时的代理服务器

    信息注释仅当通过 Data Movement gateway 访问目标时,此选项才可用。

    数据移动 网关连接到云数据仓库和存储区时,您可以选择使用代理服务器。

    有关配置 数据移动 网关以使用代理服务器的更多信息,请参阅 设置 Qlik Cloud 租户和代理服务器

    • 使用代理连接到云数据仓库

      信息注释在使用 Snowflake、Google BigQuery 和 Databricks 时可用。
    • 使用代理连接到存储

      信息注释在使用 Azure Synapse Analytics、Amazon Redshift 和 Databricks 时可用。

数据上传

此选项卡中的某些设置仅与特定目标平台相关。

与除 Qlik Cloud 和 Snowflake 之外的所有数据平台相关

文件在关闭之前可以达到的最大大小。与并行执行选项结合使用时,较小的文件可能会上传得更快(取决于网络),并提高性能。然而,通常认为用小文件扰乱数据库是不好的做法。

仅与 Google BigQuery 相关

选中后,CSV 文件在上传到 Google BigQuery 之前将被压缩(使用 gzip)。

信息注释

需要 数据移动网关 2023.5.16 或更高版本。

仅与 Snowflake 相关

常规 选项卡中,您可以选择是使用批量加载还是Snowpipe Streaming将数据加载到 Snowflake。选择Snowpipe Streaming时,将不会显示数据上传选项卡。选择批量加载时,以下设置将可用:

  • 最大文件大小 (MB):与初始满负载和 CDC 相关。文件在加载到目标之前可以达到的最大大小。如果遇到性能问题,请尝试调整此参数。

  • 批处理中要加载的文件数:仅与初始满负载相关。在单个批处理中要加载的文件数。如果遇到性能问题,请尝试调整此参数。

有关批量加载Snowpipe Streaming加载方法的描述,请参阅 常规

元数据

LOB 列

包含 LOB 列并将列大小限制为 (KB):

您可以选择在任务中包含 LOB 列,并设置最大 LOB 大小。大于最大大小的 LOB 将被截断。

信息注释使用 Azure Synapse Analytics 作为目标时,最大 LOB 大小不能超过 7 MB。

控制表

选择要在目标平台上创建以下哪些控制表:

  • 登陆状态:提供有关当前登陆任务的详细信息,包括任务状态、任务消耗的内存量、尚未应用到数据平台的更改数以及 数据移动网关 当前正在读取的源端点中的位置。
  • 挂起的表:提供挂起的表列表及其挂起的原因。
  • 登陆历史记录:提供有关任务历史记录的信息,包括在登陆任务期间处理的记录的数量和体积、CDC 任务结束时的延迟等。
  • DDL 历史记录:包含任务期间发生的所有受支持 DDL 更改的历史记录。

    DDL 历史记录表仅受以下目标平台的支持:

    • Databricks

    • Microsoft Fabric
    • Amazon Redshift
    • 如果您正在使用 数据移动网关,以下目标需要 2024.11.14 或更高版本:
      • Amazon S3
      • Google Cloud Storage
      • Snowflake
    • Kafka - 如果使用 数据移动网关,则需要 2025.5.42 或更高版本。
    • 如果您正在使用 数据移动网关,以下目标需要 2025.11.1 或更高版本:
      • Google BigQuery
      • Google Cloud Alloy DB for PostgreSQL(通过 PostgreSQL 连接器)
      • Google Cloud SQL for PostgreSQL(通过 PostgreSQL 连接器)
      • Microsoft Azure Database for PostgreSQL(通过 PostgreSQL 连接器)
      • PostgreSQL

有关每个控制表的详细描述,请参阅 控制表

满负载

性能调优

  • 并行加载的最大表数:输入一次加载到目标中的最大表数。默认值为 5
  • 事务一致性超时(秒):输入在开始满负载操作之前等待打开的事务关闭的秒数。默认值为 600(10 分钟)。即使仍有打开的事务,满负载也会在达到超时值后开始。

    信息注释要复制在满负载开始时打开但仅在达到超时值之后才提交的事务,您需要重新加载目标表。
  • 满负载期间的提交率:可以一起传输的最大事件数。默认值为 10000

满负载完成后

创建主键或唯一键:如果希望将数据平台上主键或唯一索引的创建延迟到满负载完成之后,请选择此选项。

  • 对于初始加载

  • 当从 SaaS 应用程序源移动数据时,您可以设置如何执行初始满负载:

    信息注释 如果您使用 数据移动网关 访问数据源,则这些设置需要 2022.11.74 或更高版本。
    使用缓存数据

    此选项允许您使用在选择完整数据扫描的情况下生成元数据时读取的缓存数据。

    这减少了 API 使用和配额方面的开销,因为已经从源读取数据。自初始数据扫描以来的任何更改都可以通过更改数据捕获 (CDC) 获取。

    从数据源加载

    此选项从数据源执行新加载。此选项在以下情况下很有用:

    • 最近未执行元数据扫描。

    • 源数据集很小并且经常更改,而您不希望维护完整的更改历史记录。

    错误处理

    数据错误

    信息注释

    仅更改数据捕获 (CDC) 更新方法支持数据错误处理。

    对于数据截断错误:选择在一个或多个特定记录中发生截断时要执行的操作。您可以从列表中选择以下选项之一:

    • 忽略:任务将继续,并忽略该错误。
    • 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
    • 停止任务:任务已停止,需要手动干预。

    对于其他数据错误:选择在一个或多个特定记录中发生错误时要执行的操作。您可以从列表中选择以下选项之一:

    • 忽略:任务将继续,并忽略该错误。
    • 挂起表:任务继续进行,但带有错误记录的表中的数据会移动到错误状态,并且不会复制其数据
    • 停止任务:任务已停止,需要手动干预。

    当其他数据错误达到时,升级错误处理(每个表):选中此复选框,当非截断数据错误(每个表)数量达到指定数量时,将错误处理升级。有效值为 1-10,000。

    升级操作:选择升级错误处理时应执行的操作。请注意,可用的操作取决于从上述针对其他数据错误下拉列表中选择的操作。

    • 挂起表(默认值):任务将继续,但带有错误记录的表中的数据将移动到错误状态,并且不会登陆其数据。

    • 停止任务:任务已停止,需要手动干预。

    表错误

    通过该选项可控制何时触发表格错误处理策略。默认情况下,遇到表格错误后,重试三次之后将暂停表格或停止任务(根据所选操作)。有时,由于 SaaS 应用程序的计划维护,会出现表格错误。在这些情况下,默认重试次数可能不足以在触发表格错误处理策略前完成维护。这也取决于任务调度间隔,因为每次任务运行时都会执行重试。因此,举例来说,如果您安排任务每小时运行一次,而就在任务开始运行时,SaaS 应用程序离线进行维护,那么默认三次重试将允许 SaaS 应用程序离线长达三小时,而不会触发表格错误处理策略。如果维护窗口较长,则需要增加重试次数(或更改调度),以防触发表格错误处理策略。

    总之,如果您知道自己的 SaaS 应用程序要进行定期维护,最佳做法是根据调度增加重试次数,以便在不触发表错误处理策略的情况下完成维护。

    信息注释
    • 该选项只显示在配置了精简版或标准版 SaaS 应用程序连接器的任务当中。

    • 如果使用 数据移动网关 ,则需要 2024.11.70 或更高版本。

    遇到表格错误时:从下拉列表中选择以下选项之一:

    • 挂起表(默认):任务将继续,但带有错误记录的表中的数据将移动到错误状态,并且不会复制其数据。
    • 停止任务:任务已停止,需要手动干预。

    当表格错误达到时,升级错误处理(每个表):选中此复选框,当表格错误(每个表)数量达到指定数量时,将错误处理升级。有效值为 1-10,000。

    升级操作:表错误的升级策略设置为停止任务,无法更改。

    环境

    • 最大重试数选择此选项,然后指定发生可恢复环境错误时重试任务的最大尝试次数。重试任务达到指定次数后,任务将停止,需要手动干预。

      若要从不重试任务,请清除复选框或指定“0”。

      要无限次重试任务,请指定“-1”

      • 重试间隔(秒)使用计数器选择或键入系统在尝试重试任务之间等待的秒数。

        有效值为 0-2000。

    • 延长长时间停机的重试间隔选中此复选框可增加长时间停机的重试间隔。启用此选项后,每次重试之间的间隔将加倍,直到达到最大重试间隔(并根据指定的最大间隔继续重试)。
      • 最大重试间隔(秒)使用计数器选择或键入在启用增加长时间中断的重试间隔选项时任务重试之间等待的秒数。有效值为 0-2000。

    更改处理调优

    信息注释仅当更新方法为更改数据捕获 (CDC) 时,此选项卡才可用。

    事务卸载调优

    • 在以下情况下将进行中的事务卸载到磁盘

      事务数据通常保存在内存中,直到完全提交到源或目标。但是,大于分配的内存或未在指定时间限制内提交的事务将被卸载到磁盘。

      • 所有事务的总内存大小超过 (MB):所有事务在卸载到磁盘之前可以占用的最大内存大小。默认值为 1024。
      • 事务持续时间超过(秒):每个事务在卸载到磁盘之前可以保留在内存中的最大时间。持续时间从 Qlik Talend Data Integration 开始捕获事务的时间算起。默认值为 60。

    批处理调优

    此选项卡中的某些设置可能不适用于所有目标或目标加载方法。

    当“加载方法”为“Snowpipe Streaming”时,适用于除 Qlik Cloud 和 Snowflake 之外的所有目标的设置

    • 按间隔应用批处理更改:
      • 大于:每次应用批处理更改之间等待的最短时间。默认值为 1

        增加大于值会降低将更改应用到目标的频率,同时增加批处理的大小。在将更改应用到针对处理大型批处理进行优化的目标数据库时,这可以提高性能。

      • 小于:每次应用批处理更改之间等待的最长时间(在声明超时之前)。换句话说,最大可接受延迟。默认值为 30。此值确定在达到大于值之后,应用更改之前等待的最长时间。
    • 当处理内存超过 (MB) 时强制应用批处理:用于预处理的最大内存量。默认值为 500 MB。

      为了获得最大批处理大小,请将此值设置为您可以分配给数据任务的最高内存量。在将更改应用到针对处理大型批处理进行优化的目标数据库时,这可以提高性能。

    • 同时将批处理更改应用于多个表:选择此选项应可提高应用来自多个源表的更改时的性能。

      • 最大表数:同时应用批处理更改的最大表数。默认值为 5。

      信息注释使用 Google BigQuery 作为数据平台时不支持此选项。
    • 将每个更改处理语句应用的更改数限制为:选择此选项可限制在单个更改处理语句中应用的更改数。默认值为 10,000。

      信息注释仅当使用 Google BigQuery 作为数据平台时才支持此选项。

    当“加载方法”为“Snowpipe Streaming”时,仅适用于 Qlik Cloud 和 Snowflake 的设置

    • 每笔交易的最小更改次数:每个事务中要包含的最小更改数。默认值为 1000

      信息注释

      当更改次数等于或大于每个事务的最小更改次数值时,或者当达到下面描述的应用前批处理事务的最长时间(秒)值时,将对目标应用更改,以先发生的为准。由于应用于目标的更改频率由这两个参数控制,因此对源记录的更改可能不会立即反映在目标记录中。

    • 应用前批处理事务的最长时间(秒):在声明超时之前分批收集事务的最长时间。默认值为 1

    间隔

    使用 SAP ODP 及 SaaS 应用程序(精简版)连接器时的设置

    • 每(分钟)读取更改

      从源读取更改的间隔(分钟)。有效范围为 1 至 1440。

      信息注释

      要使用此选项,数据任务定义时必须采用:

      • 数据移动网关
      • 以下任何来源:
      • 更改数据捕获 (CDC) 更新方法。

    使用 SAP OData 连接器时的设置

    • 根据增量提取间隔:选中此选项后,数据任务会根据增量提取间隔来检查更改。

      信息注释该间隔将在每个“轮次”后开始。一个轮次可以定义为数据任务从源表读取更改并将其发送至目标(作为单个事务)所需的时间。一个轮次的长度会根据表的数量及更改的数量而变化。因此,如果您指定 10 分钟的间隔,并且一个轮次需要 4 分钟,那么检查更改之间的实际时间将为 14 分钟。
      • 增量提取间隔:从您的系统之中提取增量的频率。默认值为每 60 秒一次。

    • 按计划:选中此选项之后,数据任务将提取一次增量,然后停止。然后它将继续按计划运行。

      信息注释仅当 CDC 周期之间的间隔为 24 小时或者更长时,此选项才相关。

      有关计划的信息:

      • 要了解如何在数据管道项目中登陆任务,请参阅调度任务

    杂项调优

    • 语句缓存大小(语句数):存储在服务器上以供以后执行(将更改应用到目标时)的准备语句的最大数量。默认值为 50。最大值为 200。
    • 更新主键列时的 DELETE 和 INSERT:此选项要求在源数据库中打开完全补充日志记录。

    模式演变

    选择如何处理模式中的以下类型的 DDL 更改。更改模式演变设置后,必须再次准备任务。下表描述了受支持的 DDL 更改可用的操作。

    DDL 更改 应用到目标 忽略 挂起表 停止任务
    添加列
    重命名列
    重命名表
    更改列数据类型
    创建表

    如果您使用选择规则添加匹配模式的数据集,则将检测并添加符合该模式的新表。

    字符替换

    您可以替换或删除目标数据库中的源字符,和/或替换或删除所选字符集不支持的源字符。

    信息注释
    • 所有字符都必须指定为 Unicode 代码点。

    • 字符替换也将在控制表上执行。
    • 无效值将由表格单元格右上角的红色三角形指示。将鼠标光标悬停在三角形上会显示错误消息。

    • 为任务定义的任何表级或全局转换都将在字符替换完成后执行。

    • 替换或删除源字符表中定义的替换操作在替换或删除所选字符集不支持的源字符表格中定义的替代操作之前执行。

    • 字符替换不支持 LOB 数据类型。

    替换或删除源字符

    使用替换或删除源字符表可以定义特定源字符的替换项。例如,当字符的 Unicode 表示在源平台和目标平台上不同时,这可能很有用。例如,在 Linux上,Shift_JIS 字符集中的减号字符表示为 U+2212,但在 Windows 上,它表示为 U+FF0D

    替换操作
    进行该操作

    定义替代操作

    1. 单击表上方的添加字符按钮。

    2. 源角色替换角色字段中分别指定源角色和目标角色。

      例如,要将字母“a”替换为字母“e”,请分别指定 00610065

      信息注释

      要删除指定的源字符,请在替换字符列中输入 0

    3. 重复步骤 1-2 以替换或删除其他字符。

    编辑指定的源或目标角色

    单击行末尾的 并选择编辑

    从表中删除条目

    单击行末尾的 并选择删除

    替换或删除所选字符集不支持的源字符

    使用不支持的源字符(按字符集)表为所选字符集不支持的所有字符定义一个替换字符。

    不支持的字符替换操作
    进行该操作

    定义或编辑替换操作。

    1. 从表中的字符集下拉列表中选择一个字符集。

      所选字符集不支持的任何字符将在目标上替换为下面步骤 2 中指定的字符。

    2. 替换字符列中,单击列中的任意位置,然后指定替换字符。例如,要将所有不支持的字符替换为字母“a”,请输入0061

      信息注释

      要删除所有不支持的字符,请输入0

    禁用替换操作。

    字符集下拉列表中选择空白条目。

    更多选项

    这些选项不会在 UI 中公开,因为它们仅与特定版本或环境相关。因此,除非 Qlik 支持或产品文档明确指示,否则不要设置这些选项。

    要设置选项,只需将该选项复制到添加功能名称字段中,然后单击添加。然后根据收到的说明设置该值或启用该选项。

    并行加载数据集段

    信息注释此设置不适用于 SaaS 应用程序源,并且仅适用于源和目标数据库的特定子集。

    在满负载期间,您可以通过将数据集拆分为多个段来加速大型数据集的加载,这些段将并行加载。表可以按数据范围、所有分区、所有子分区或特定分区进行拆分。

    有关更多信息,请参阅 并行登陆数据集片段

    调度任务

    信息注释使用计划程序需要 可操作 角色或 可编辑 角色。

    在以下用例中,您必须定义调度间隔以保持目标数据最新:

    • 在没有 数据移动网关 的情况下访问数据源
    • 使用不支持每隔以下时间读取更改设置的 SaaS 应用程序连接器
    • 使用按计划选项从 SAP OData 源捕获更改时。

    计划确定使用源数据集的更改更新目标数据集的频率。计划确定更新频率,而数据集类型确定更新方法。如果源数据集支持 CDC(更改数据捕获),则仅复制源数据的更改并将其应用于相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果某些源数据集支持 CDC 而某些不支持,则将创建两个单独的子任务:一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对支持 CDC 的数据集的更改。在这种情况下,为确保数据一致性,强烈建议不要为这两个任务保持相同的调度间隔(如果您决定将来更改更新频率)。

    有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔

    要更改调度:

    1. 打开您的管道项目,然后执行以下操作之一:

      • 在任务视图中,单击数据任务上的 由 3 个水平点组成的菜单按钮。,然后选择调度
      • 在管道视图中,单击数据任务上的 由 3 个垂直点组成的菜单按钮。,然后选择调度
      • 打开登陆任务,然后单击调度 工具栏按钮。
    2. 根据需要更改调度设置,然后单击确定
    信息注释如果在下一次计划运行即将开始时数据任务仍在运行,则将跳过下一次计划运行,直到任务完成。

    为基于 数据移动网关 的任务执行错过的运行

    有时候,网络问题可能会导致与 数据移动网关 的连接中断。如果在下一次计划运行前没有恢复与 数据移动网关 的连接,数据任务将无法按计划运行。在这种情况下,您可以选择在连接恢复后是否立即执行一次运行。

    所有 数据移动网关 的默认设置均Administration 活动中心中定义。您可以如下所述覆盖各个任务的这些设置。

    要执行此操作

    1. 打开您的项目,然后执行以下操作之一:

      • 在任务视图中,单击数据任务上的 由 3 个水平点组成的菜单按钮。,然后选择调度

      • 在管道视图中,单击数据任务上的 由 3 个垂直点组成的菜单按钮。,然后选择调度

      • 打开数据任务,然后单击调度 工具栏按钮。

      将打开调度 - <task>对话框。

    2. 打开对此任务使用自定义设置

    3. 在对话框底部,选择以下运行错过的计划任务选项之一。

      • 如果在下一个计划实例之前运行任务很重要,请选择尽快,然后按计划

      • 选择按计划以在下一个计划实例运行任务

    4. 保存您的设置。

    另请参阅:执行错过的计划任务运行

    本页面有帮助吗?

    如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!