跳到主要内容 跳到补充内容

创建数据管道

您可以创建数据管道,以使用数据任务在项目中执行所有数据集成。入职将数据从内部部署或云中的数据源移动到项目中,并将数据存储在随时可用的数据集中。您还可以执行转换并创建数据集市,以利用生成和转换的数据集。数据管道可以是简单的线性管道,也可以是一个复杂的管道,它消耗多个数据源并生成多个输出。

所有数据任务都将在与其所属的项目相同的空间中创建。

您还可以查看世系以跟踪数据和向后到原始源的数据转换,并执行影响分析,显示数据任务、数据集或字段依赖项的前瞻性下游视图。有关更多信息,请参阅在 数据集成 只不过使用世系和影响分析

录入数据

这包括将数据登录到临时区域,然后将数据集存储在云数据仓库中。登陆和存储数据任务是在一个步骤中创建的。如果需要,您还可以使用单独的任务执行登陆和存储。

注册数据平台上已存在的数据

注册数据平台上已经存在的数据,以整理和转换数据,并创建数据集市。这使您可以使用除 Qlik Talend Data Integration 以外的其他工具提供的数据,例如 Qlik Replicate 或 Stitch

转换数据

基于规则和自定义 SQL 在已引入的数据上创建可重复使用的行级转换。这将创建“变换”数据任务。

创建和管理数据集市

创建数据集市以利用您的数据集。这将创建数据集市数据任务。

目标数据平台

项目与用作所有输出目标的数据平台相关联。

有关支持的数据平台的更多信息,请参阅建立与目标的连接

项目视频介绍

创建项目的示例

下面的示例执行入职数据、转换数据和创建数据集市。这将创建一个简单的线性数据管道,您可以通过加入更多的数据源来扩展该管道,创建更多的转换,并将生成的数据任务添加到数据集市。

项目中的线性数据管道示例

  1. 数据集成 > 项目中,单击创建项目

    1. 输入项目的名称和说明,然后选择要在其中创建项目的空间。所有数据任务都将在其所属的项目的空间中创建。

    2. 用例中选择数据管道
    3. 选择要在项目中使用的数据平台。

    4. 选择要在项目中使用的到云数据仓库的连接。这将用于登陆数据文件并存储数据集和视图。如果尚未准备连接,请使用添加连接创建一个数据连接。

      如果您选择了 Google BigQuery、Databricks 或 Microsoft Azure Synapse Analytics 作为数据平台,您还需要连接到临时区域。

    5. 如果您选择了 Qlik Cloud 作为数据平台:

      您可以在 Qlik 托管存储中存储数据,也可以在自己的托管 AmazonS3 存储段中存储数据。如果您想使用自己的 AmazonS3 存储段,您需要选择到该存储段的连接。

      在这两种情况下,您还需要选择到 AmazonS3 暂存区域的连接。如果您使用的是在上一步中定义的同一个存储段,请确保使用存储段中的另一个文件夹进行暂存。

    6. 单击创建

      项目已创建,您可以通过添加数据任务来创建数据管道。

  2. 在项目中,单击新增,然后单击录入数据

    有关更多信息,请参阅录入数据

    这将创建登陆数据任务和存储数据任务。要开始复制数据,您需要:

  3. 创建存储数据任务后,返回项目。现在可以对创建的数据集执行转换。

    单击存储数据任务上的 ...,然后选择转换数据以基于此存储数据任务创建转换数据任务。有关转换的说明,请参阅转换数据

  4. 您可以基于存储数据任务或转换数据任务创建数据集市。

    单击数据任务上的 ...,然后选择创建数据集市以创建数据集市数据任务。有关创建数据集市的说明,请参阅:

    创建和管理数据集市

例如,当您第一次满负载存储和转换的数据集和数据集市时,您可以在分析应用程序中使用它们。有关创建分析应用程序的更多信息,请参阅使用 Qlik Talend Data Integration 生成的数据集创建分析应用程序

您还可以通过加入更多数据源来扩展数据管道,并在转换或数据集市中组合它们。

项目中的操作

您可以执行与项目操作相同的可用于数据任务的操作。这允许您对数据管道中的操作进行协调。

信息注释每个项目一次只能执行一个项目操作。
  • 打开和关闭计划

  • 执行设计操作

  • 开始和停止执行数据任务

  • 删除数据任务

单击操作以查看正在进行的操作或最近执行的操作的状态。

单击停止操作可以停止正在进行的操作。正在进行的数据任务不会停止,但会取消任何尚未开始的任务。

打开和关闭计划

您可以在项目级别控制数据任务的计划。

  • 单击 ...,然后单击计划

    您可以打开或关闭所有数据任务或所选任务的计划。仅显示已定义计划的任务。

    信息注释此选项不可用于以 Qlik Cloud 作为数据平台的项目。

有关计划单个数据任务的详细信息,请参阅:

执行设计操作

可以对项目中的所有数据任务或所选任务执行设计操作。这让控制项目中的数据集任务变得更容易,而不是在每个任务中单独执行设计操作。

  • 验证

    单击验证以验证所有任务或所选任务。将预先选择自上次验证操作以来更改的数据任务。

    将按管道顺序验证数据任务。

  • 准备

    单击准备以准备所有任务或所选任务。将预先选择自上次准备操作以来更改的数据任务。

    您可以选择重新创建需要数据平台不支持的结构更改的数据集。这会导致数据丢失。

  • 重新创建

    单击 ... 然后单击重新创建以从所有任务或所选任务的源重新创建数据集。

运行数据任务

您可以启动项目中所有数据任务的执行,也可以启动所选任务的执行而不是单独运行任务。例如,您可以使用基于时间的计划运行所有任务。这将使用基于事件的计划启动下游任务。

  • 运行

    单击运行以启动所有任务或所选任务的执行。这将启动所有所选任务的运行,并在它们开始执行时立即完成。

    您可以从所有准备好运行的任务中进行选择。会预先选择具有基于时间的计划的任务和使用 CDC 的任务。不会预先选择具有基于事件的计划的任务,因为将在有要处理的数据时执行它们。

    在以 Qlik Cloud 作为数据平台的项目中,会预先选择所有登陆和存储任务。

    信息注释所有数据任务都是并行执行的。这意味着依赖关系检查可能会阻止某些任务运行。
  • 停止

    单击停止以停止所有任务或所选任务。

    您可以从正在运行的任务中进行选择。

删除数据任务

  • 单击“删除”可删除项目中的所有数据任务或所选任务。

更改项目的视图

项目有两种不同的视图。您可以通过单击管道视图在视图之间切换。

  • 管道视图显示数据任务的数据流。

    通过单击,可以选择为数据任务显示的信息量。打开或关闭以下信息:

    • 状态

    • 数据新鲜度

    • 计划

  • 卡片视图显示卡片视图,其中包含有关数据任务的信息。

    您可以筛选资产类型和所有者。

查看数据

在设计数据管道时,您可以查看数据示例以查看和验证数据的形状。

需要以下权限:

  • Administration 中的租户级别上启用了查看数据的功能。

    启用设置>特性控制 > 数据集成 中查看数据。

  • 您将在连接所在的空间中分配可以查看数据角色。

  • 您将在项目所在的空间中分配可以查看角色。

要在数据管道视图中查看示例数据,请执行以下操作:

  1. 单击管道视图底部预览横幅中的 向上

  2. 选择要为其预览数据的数据任务。

将显示数据示例。可以使用行数设置要包含在示例中的数据行数。

导出和导入项目

您可以将项目导出为 JSON 文件,该文件包含重建数据项目所需的所有内容。导出的 JSON 文件可以在同一租户或另一租户上导入。例如,您可以使用此特性将项目从一个租户移动到另一个租户,或制作项目的备份副本。

有关更多信息,请参阅导出和导入数据管道

项目设置

您可以设置项目和所有包含的数据任务的公用属性。

  • 单击设置

有关更多信息,请参阅数据管道项目设置

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!