跳到主要内容 跳到补充内容

使用标准、高级或企业订阅将在数据湖中登陆数据

您可以设置在数据湖中登陆数据任务,将数据登陆到以下目标:

  • Amazon S3

    有关配置与 AmazonS3 的连接的信息,请参阅Amazon S3

  • Azure Data Lake Storage

    有关配置与 Azure 数据湖存储的连接的信息,请参阅Azure Data Lake Storage

  • Google Cloud Storage

    有关配置与 Google Cloud Storage 的连接的信息,请参阅Google Cloud Storage

提示注释尽管您可以在任务设置向导中配置您的源和目标连接在数据湖中登陆数据设置,但为了简化设置过程,建议您在创建任务之前进行此操作。

有关配置与数据源的连接的信息,请参阅设置与数据源的连接

要设置数据湖登陆任务,请执行以下操作:

  1. 数据集成 > 项目中,单击创建项目

  2. 新建项目对话框中,执行以下操作:

    1. 为您的项目提供名称

    2. 选择要在其中创建项目的空间
    3. 任选地,提供描述
    4. 选择复制作为用例
    5. 如果要创建一个空项目而不配置任何设置,请清除打开复选框(可选)。
    6. 单击创建

      将出现以下情况之一:

      • 如果选择了新建项目对话框中的打开复选框(默认值),则项目将打开。
      • 如果清除了新建项目对话框中的打开复选框,则该项目将添加到项目列表中。您可以稍后通过从项目的 菜单中选择打开来打开项目。
  3. 项目打开后,单击登陆数据湖中的数据

    登陆数据湖中的数据向导打开。

  4. 常规选项卡中,指定数据湖平台任务的名称和说明。然后单击下一步

    信息注释不支持包含斜杠 (/) 或反斜杠 (\) 字符的名称。
  5. 选择源连接选项卡中,选择到源数据的连接。从操作列中的菜单中选择编辑,可以选择编辑连接设置。

    如果您还没有到源数据的连接,则需要先创建一个,方法是单击选项卡右上角的创建连接

    您可以使用左侧的筛选器筛选连接列表。可以根据源类型、网关、空间和所有者筛选连接。连接列表上方的所有筛选器按钮显示当前筛选器的数量。您可以使用此按钮关闭或打开左侧的筛选器面板。当前活动的筛选器也显示在可用连接列表的上方。

    您也可以从右侧的下拉列表中选择上次修改时间上次创建时间按字母数字顺序来对列表进行排序。单击列表右侧的箭头可以更改排序顺序。

    选择数据源连接后,可以选择单击选项卡右上角的测试连接(推荐),然后单击下一步

  6. 选择数据集选项卡中,选择要包含在数据湖登陆任务中的表和/或视图。您还可以使用通配符并创建选择规则,如从数据库选择数据中所述。

    信息注释不支持模式名称或包含斜杠 (/) 或反斜杠 (\) 字符的表名称。
  7. 选择目标连接选项卡中,从可用连接列表中选择目标,然后单击下一步。在功能方面,该选项卡与前面描述的选择源连接选项卡相同。

  8. 设置选项卡中,可以选择更改以下设置,然后单击下一步

    • 更改数据捕获 (CDC):数据湖登陆任务从满负载开始(在此期间,所有选定的表都将登陆)。然后使用 CDC(更改数据捕获)技术使登陆数据保持最新。

      信息注释不支持 DDL 操作的 CDC(更改数据捕获)。

      使用 数据移动网关 时,几乎实时地从源捕获更改。不使用 数据移动网关 时,将根据调度程序设置捕获更改。有关更多信息,请参阅在不使用 数据移动网关 进行工作的情况下安排任务

    • 重新加载将数据从选定的源表完全加载到目标平台,并在必要时创建目标表。任务启动时会自动进行满负载,但也可以手动执行或根据需要安排定期进行。

    如果您选择更改数据捕获 (CDC),并且您的数据还包含不支持 CDC 的表或视图,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载的所有其他表和视图。

    根据要将文件写入的存储段文件夹,选择以下选项之一:

    • 默认文件夹:默认文件夹格式为 <your-project-name>/<your-task-name>
    • 根文件夹:文件将直接写入存储段。
    • 文件夹:输入文件夹名称。如果该文件夹不存在,将在数据湖登陆任务期间创建该文件夹。

      信息注释 文件夹名称不能包含特殊字符(例如 @、#、 ! 等)。
  9. 摘要选项卡中,将显示数据管道的可视化信息。选择是打开<name>任务还是什么都不做。然后单击创建

    根据您的选择,将打开任务或显示项目列表。

  10. 如果选择打开任务,数据集选项卡将显示所选数据资产表的结构和元数据。这包括所有显式列出的表以及与选择规则匹配的表。

    如果要从数据源中添加更多表,请单击选择源数据

  11. 可选择如 云存储目标的设置 中所述更改任务设置。

  12. 您可以对数据集执行转换、筛选数据或添加列。

    有关更多信息,请参阅管理数据集

  13. 添加所需的转换后,可以通过单击验证数据集来验证数据集。如果验证失败,请先解决错误,然后再继续。

    有关更多信息,请参阅验证和调整数据集

  14. 准备好后,单击准备对登陆任务进行编目并准备好执行。

  15. 准备好数据任务后,单击运行

  16. 数据湖登陆任务现在应该开始了。您可以在监视器视图中监视其进度。有关更多信息,请参阅监视单个数据任务

设置数据集的加载优先级

您可以通过为每个数据集指定加载优先级来控制数据任务中数据集的加载顺序。例如,如果您想先加载较小的数据集,然后再加载较大的数据集,这就很有用。

  1. 点击加载优先级

  2. 为每个数据集选择加载优先级。

    默认加载优先级为正常。数据集将按以下优先顺序加载:

    • 最高

    • 较高

    • 正常

    • 较低

    • 最低

    具有相同优先级的数据集不分先后加载。

  3. 单击确定

信息注释来自 SaaS 应用程序源的数据集可能包含加载顺序依赖关系。设置负载优先级时应考虑这一点。

正在刷新元数据

您可以刷新任务中的元数据,以与任务的设计视图中源元数据的更改保持一致。对于使用 Metadata manager 的 SaaS 应用程序,必须先刷新 Metadata manager,然后才能刷新数据任务中的元数据。

信息注释此操作仅影响任务的设计视图中的表。
  1. 您可以:

    • 单击 ...,然后刷新元数据以刷新任务中所有数据集的元数据。

    • 点击在数据集中的某个数据集上的 ...,然后刷新元数据以刷新单个数据集的元数据。

    您可以在屏幕下部的刷新元数据下查看元数据刷新的状态。通过将光标悬停在 信息按钮 上,您可以看到元数据上次刷新的时间。

  2. 准备数据任务才能应用更改。

    准备好数据任务并应用更改后,将从刷新元数据中删除这些更改。

您必须准备使用此任务的存储任务来传播更改。

如果删除列,则会添加一个具有 Null 值的转换,以确保存储不会丢失历史数据。

限制

  • 如果数据类型和数据长度相同,则在此之前在同一时隙中具有删除列的重命名将被转换为删除列重命名。

    示例:  

    之前:a b c d

    之后:a c1 d

    在这个例子中,b 被删除,c 被重命名为 c1bc 具有相同的数据类型和数据长度。

    这将被识别为 bc1 并删除 c 的重命名。

  • 即使删除了最后一列,并且其前面的一列被重命名,也无法识别最后一列的重命名。

    示例:  

    之前:a b c d

    之后:a b c1

    在这个例子中,d 被删除,c 被重命名为 c1

    这将被识别为 cd 的删除,以及 c1 的添加。

  • 假设在末尾添加了新列。如果在中间添加与下一列具有相同数据类型的列,则可能会将其解释为删除和重命名。

登陆数据湖中数据时的限制和注意事项

转换受以下限制:

  • 语序为从右向左的语言的列不支持转换。
  • 无法对名称中包含特殊字符(例如 #、\、/、-)的列执行转换。

  • LOB/CLOB 数据类型唯一支持的转换是删除目标上的列。
  • 不支持使用转换重命名列,然后添加同名的新列。

移动的列不支持更改可空性,无论是直接更改还是使用转换规则。但是,默认情况下,任务中创建的新列可以为空。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!