跳到主要内容 跳到补充内容

录入数据

Qlik Talend Data Integration 项目中创建数据管道的第一步是录入数据。这涉及从数据源传输数据,并以读优化格式存储数据集。您可以使用连续的更改处理来更新数据,也可以使用计划的重新加载。

您可以在一个操作中创建录入,但它会分两步执行。

  • 登陆数据

    这涉及使用登陆数据任务将数据从本地数据源连续传输到登陆区域。

    从数据源登陆数据

  • 存储数据集

    这包括读取登陆数据的初始加载或增量加载,并使用存储数据任务以读取优化格式应用数据。

    存储数据集

当您已登录数据时,可以用多种方式使用存储的数据集。

  • 您可以在分析应用程序中使用数据集。

  • 您可以创建变换。

  • 您可以创建数据集市。

录入数据

在项目中开始录入数据。数据集将存储在项目中定义的云数据仓库中。有关项目的更多信息,请参阅创建数据管道

  1. 在您的项目中,单击新增,然后单击录入数据

    提示注释您也可以单击项目中现有源上的 ,然后单击录入数据
  2. 为录入添加名称描述

    单击下一步

  3. 选择源连接。

    您可以选择现有源连接或创建到源的新连接。

    有关更多信息,请参阅设置与数据源的连接

    单击下一步

  4. 选择要加载的数据。

    有关更多信息,请参阅选择数据

    单击下一步

    显示设置,在其中您可以更新方法和历史设置。

  5. 更新方法中,选择用哪个方法来更新数据:

    • 更改数据捕获 (CDC)

      如果您的数据还包含不支持 CDC 的表或视图,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载和比较的所有其他表和视图。

    • 重新加载并比较

  6. 选择是否要复制历史记录中的当前数据之外的先前数据的历史记录。

    准备好后单击下一步

  7. 如果您不使用 数据移动网关 来访问数据源,则设置中将显示以下部分:

    • 复制数据间隔:您可以安排从数据源捕获更改的频率,并设置开始时间开始日期。如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持,则将创建两个单独的子任务:一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对支持 CDC 的数据集的更改。

      引入设置向导允许您安排每小时间隔。完成引入向导后,您可以探索不同的计划选项,如在不使用 数据移动网关 进行工作的情况下安排任务中所述。

    有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔

  8. 预览为录入数据创建的两个数据任务,如果需要,请重命名它们。

    提示注释命名存储数据资产中的数据库模式时使用这些名称。由于模式只能与一个任务关联,请考虑使用唯一的名称,以避免与使用相同数据平台的其他项目中的数据资产发生冲突。
  9. 选择是要打开已创建的任何数据任务,还是返回到项目。

    准备好后,单击完成

现在创建录入数据任务。要开始复制数据,您需要:

选择数据

可以选择特定的表格或视图,或使用选择规则包括或排除表格组。

信息注释如果选择包含视图,则不支持 CDC。

使用 % 作为通配符来定义架构和表的选择条件。

  • %.% 定义所有架构中的所有表。

  • Public.% 定义所有架构 Public 中的所有表。

选择条件根据您的选择提供预览。

您现在可以:

  • 根据选择条件创建规则以包含或排除一组表。

    单击从选择标准添加规则以创建规则,然后选择包含排除

    您可以在选择规则下查看规则。

  • 选择一个或多个数据集,然后单击添加选定的数据集

    您可以在显式选择的数据集下查看添加的数据集。

选择规则仅适用于当前的表和视图集,而不适用于将来添加的表和视图。

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!