创建数据管道项目 | Qlik Cloud帮助
跳到主要内容 跳到补充内容

创建数据管道项目

您可以创建一个数据管道,使用数据任务在项目中执行所有数据集成。载入操作将数据从本地或云中的数据源移动到项目中,并将数据存储在随时可用的数据集中。您可以将数据载入到云数据仓库或 Qlik Open Lakehouse 中。

将数据载入到云数据仓库时,您还可以执行转换并创建数据集市,以利用生成和转换的数据集。数据管道可以是简单且线性的,也可以是使用多个数据源并生成许多输出的复杂管道。

信息注释数据管道项目不支持 SaaS 应用程序预览连接器。要了解您的连接器是否处于预览阶段,请参阅连接器帮助。

所有数据任务都将在其所属项目所在的同一空间中创建。

您还可以查看世系,以向后追踪数据和数据转换至原始来源,并执行影响分析,该分析显示数据任务、数据集或字段依赖关系的前瞻性下游视图。有关详细信息,请参阅 在 数据集成 只不过使用世系和影响分析

信息注释要创建管道项目,您必须具有包含 管道项目 权限的自定义角色,或者必须在 用户默认 设置中启用该权限。有关详细信息,请参阅 User Default和自定义角色中的权限

将数据引入数据仓库

这包括将数据登陆到暂存区,然后将数据集存储在云数据仓库中。登陆和存储数据任务在单个步骤中创建。如果需要,您还可以使用单独的任务执行登陆和存储。

引入数据至 Qlik Open Lakehouse

创建 Qlik Open Lakehouse 管道项目,以将数据从任何受支持的源复制到 Iceberg 开放表格式。可以从您的云数据仓库分析引擎访问和查询表,而无需通过使用镜像数据任务来复制数据。

注册数据平台上已存在的数据

注册数据平台上已存在的数据,以整理和转换数据,并创建数据集市。这使您可以使用通过 Qlik Talend Data Integration 以外的其他工具(例如 Qlik Replicate 或 Stitch)载入的数据。

转换数据

基于规则和自定义 SQL 对载入的数据创建可重用的行级转换。这将创建一个转换数据任务。

Creating and managing data marts

创建数据集市以利用您的数据集。这将创建一个数据集市数据任务。

创建知识集市

创建知识集市,以将结构化和非结构化数据嵌入并存储在向量数据库中。这将创建一个知识集市数据任务。

目标数据平台

该项目与一个数据平台相关联,该平台用作所有输出的目标。

有关受支持的数据平台的详细信息,请参阅 建立与目标的连接

项目视频简介

video thumbnail

创建项目的示例

以下示例执行载入数据、转换数据和创建数据集市。这将创建一个简单的线性数据管道,您可以通过载入更多数据源、创建更多转换并将生成的数据任务添加到数据集市来扩展该管道。

项目中的线性数据管道示例

数据管道的流程图
  1. 数据集成 > 管道项目 中,单击 新建 > 项目

    1. 输入项目的名称和描述。

      信息注释如果稍后为项目启用版本控制,则在项目处于版本控制之下时,您将无法更改项目名称。
    2. 选择要在其中创建项目的空间。所有数据任务都将在其所属项目所在的空间中创建。

    3. 用例 中选择 数据管道
    4. 选择要在项目中使用的平台。

    5. 选择与要在项目中使用的云数据仓库的连接。这将用于登陆数据文件并存储数据集和视图。如果您尚未准备好连接,请使用 新建 创建一个。

      • 如果您选择 Google BigQueryDatabricksMicrosoft Azure Synapse Analytics 作为数据平台,您还需要连接到暂存区。

      • 如果您选择 Snowflake 作为数据平台,您可以选择将数据登陆到云存储。请参阅 将数据登陆到 Lakehouse

      • 如果您选择 Qlik Cloud 作为数据平台:

        您可以将数据存储在 Qlik 托管存储中,也可以存储在您自己托管的 Amazon S3 存储段中。如果要使用自己的 Amazon S3 存储段,则需要选择与该存储段的连接。

        在这两种情况下,您还需要选择与 Amazon S3 暂存区的连接。如果使用在上一步中定义的相同存储段,请确保使用存储段中的另一个文件夹进行暂存。

    6. 单击 创建

      项目已创建,您可以通过添加数据任务来创建数据管道。

  2. 在项目中,单击 创建,然后单击 载入数据

    有关详细信息,请参阅 将数据引入数据仓库

    这将创建一个登陆数据任务和一个存储数据任务。要开始复制数据,您需要:

  3. 创建存储数据任务后,返回到项目。您现在可以对创建的数据集执行转换。

    单击存储数据任务上的 ...,然后选择 转换数据,以基于此存储数据任务创建转换数据任务。有关转换的说明,请参阅 转换数据

  4. 您可以基于存储数据任务或转换数据任务创建数据集市。

    单击数据任务上的 ...,然后选择 创建数据集市 以创建数据集市数据任务。有关创建数据集市的说明,请参阅:

    Creating and managing data marts

当您对存储和转换的数据集以及数据集市执行了首次满负载后,您可以在分析应用程序中使用它们。有关创建分析应用程序的详细信息,请参阅 使用数据集成中生成的数据集创建分析应用程序

您还可以通过载入更多数据源来扩展数据管道,并在转换或数据集市中将它们组合在一起。

构建跨项目管道

您可以构建跨项目管道,其中一个任务可以使用另一个项目中的任务。这使您可以通过几种可能的方式实现分段:

  • 您可以为每个组织单位创建一个单独的数据移动管道,并在单个数据集市管道中使用这些输出。

  • 您可以创建一个数据移动管道,并在多个转换管道中使用该输出。

警告注释在任何情况下都不要在数据管道项目中创建循环任务依赖关系。循环任务依赖关系会严重影响稳定性、性能和可维护性。

转换和数据集市任务可以使用位于另一个项目中的存储和转换任务。

  • 您必须在所使用项目所在的空间中至少具有 可以使用 角色。

  • 两个项目必须位于同一数据平台上。

任务的所有数据集都与下游项目共享。这意味着,如果要实现数据集隔离,则必须通过创建转换任务在所使用的项目中过滤出数据集。

在项目视图中,您可以查看被另一个项目使用的任务,以及当前项目中使用的来自其他项目的任务。当前项目之外的所有任务均显示为灰色。依赖关系是通过引用而不是名称建立的,这意味着您可以重命名任务而不会破坏引用。这也意味着,如果您删除了被使用的任务并创建了一个同名的新任务,引用仍然会被破坏。

有几种方法可以重用现有数据:

  • 创建新项目

    在创建项目后选择 使用其他项目中的数据 选项。

    您可以创建转换或数据集市,使用来自另一个管道的已载入数据。

  • 在转换任务或数据集市任务中,您可以在 选择源数据 中选择来自另一个项目的数据。

    选择源数据时,选择 项目。如果所选项目处于版本控制之下,请选择一个 分支。默认分支为 main。数据任务列表将更新以反映所选分支。然后选择一个 数据任务 以查看哪些数据集可用。

您可以选择是否要显示其他项目中使用了此项目中任务的任务。

  • 单击 并打开或关闭 跨项目输出

当前项目之外的所有任务均显示为灰色。

版本控制限制

由于跨项目管道分布在多个项目之间,这增加了使用版本控制时的复杂性。在这些示例中,Project1Project2 使用。

跨项目管道示例

  • Project2 可以使用 Project1 的特定分支。在转换或数据集市任务的 选择源数据 中选择分支。默认分支为 main。如果引用的项目不受版本控制,则不会显示分支选择器,并且 Project2 将按原样使用该项目。

  • 您可以为 Project1 创建一个分支,但分支版本不会显示它被 Project2 使用。

  • 您可以将 Project2 合并到 main,但依赖关系仍然存在。

信息注释

如果稍后删除了在 Project1 中选择的分支,则引用的破坏方式与删除引用的任务时相同。如果引用的任务在所选分支上具有不同的输出,则引用的行为与引用的任务输出更改时相同。

最佳实践

  • 检查所使用项目中的任务是否至少已准备就绪,以确保它们有效。

  • 如果您计划在租户之间导出和导入项目,如果在租户中保持空间和项目的名称相同,将会更容易。如果名称不同,则在导入项目时需要映射项目和任务。

  • 如果要使用导出和导入更改数据平台,则所有具有依赖关系的项目必须位于同一平台上。

    按照以下步骤进行安全轻松的平台更改。在此示例中,被使用的项目称为 Consumed,从 Consumed 读取的项目称为 Consumer

    1. 导出 ConsumedConsumer

    2. Consumed 导入到 Consumed_New,更改为新的数据平台。

    3. Consumer 导入到 Consumer_New,更改为与 Consumed_New 相同的数据平台,并将源项目 (Consumed) 替换为 Consumed_New

数据管道项目中的操作

您可以将数据任务可用的相同操作作为项目操作执行。这使您可以编排数据管道中的操作。

信息注释每个项目一次只能执行一个项目操作。
  • 打开和关闭计划

  • 执行设计操作

  • 启动和停止执行数据任务

  • 删除数据任务

单击 操作 以查看正在进行的操作的状态,或最近执行的操作。

您可以通过单击 停止操作 来停止正在进行的操作。正在进行的数据任务不会停止,但它将取消任何尚未开始的任务。

打开和关闭计划

您可以在项目级别控制数据任务的计划。

  • 单击 ...,然后单击 计划

    您可以为所有数据任务或选定的任务打开或关闭计划。仅显示定义了计划的任务。

    信息注释此选项不适用于以 Qlik Cloud 作为数据平台的项目。

有关计划各个数据任务的详细信息,请参阅:

执行设计操作

您可以对项目中的所有数据任务或选定的任务执行设计操作。这使得控制项目中的数据集任务变得更加容易,而不是在每个任务中单独执行设计操作。

  • 验证

    单击 验证 以验证所有任务或选定的任务。自上次验证操作以来更改的数据任务将被预先选择。

    数据任务按管道顺序进行验证。

  • 准备

    单击 准备 以准备所有任务或选定的任务。自上次准备操作以来更改的数据任务将被预先选择。

    您可以选择重新创建需要数据平台不支持的结构更改的数据集。这可能会导致数据丢失。

  • 重新创建

    单击 ...,然后单击 重新创建表,以从源重新创建所有任务或选定任务的数据集。

    信息注释如果个别表存在问题,建议首先尝试重新加载表,而不是重新创建它们。重新创建表可能会导致历史数据丢失。如果存在中断更改,还必须准备使用重新创建的数据任务的下游数据任务,以重新加载数据。

运行数据任务

您可以启动项目中所有数据任务或选定任务的执行,而不是单独运行任务。例如,您可以运行所有具有基于时间计划的任务。这将启动具有基于事件计划的下游任务。

  • 运行

    单击 运行 以启动所有任务或选定任务的执行。这将启动所有选定任务的运行,并在它们开始执行后立即完成。

    您可以从所有准备好运行的任务中进行选择。具有基于时间计划的任务和使用 CDC 的任务将被预先选择。具有基于事件计划的任务不会被预先选择,因为它们将在有数据要处理时执行。

    在以 Qlik Cloud 作为数据平台的项目中,所有登陆和存储任务都将被预先选择。

    信息注释所有数据任务并行执行。这意味着依赖关系检查可能会阻止某些任务运行。
  • 停止

    单击 停止 以停止所有任务或选定的任务。

    您可以从正在运行的任务中进行选择。

删除数据任务

  • 单击“删除”以删除项目中的所有数据任务或选定的任务。

无法删除正在运行的任务或被其他任务使用的任务。

更改项目视图

项目有两种不同的视图。您可以通过单击 管道视图 在视图之间切换。

  • 管道视图显示数据任务的数据流。

    您可以通过单击 来选择要为数据任务显示多少信息。打开或关闭以下信息:

    • 状态

    • 数据新鲜度

    • 计划

    • 跨项目输出

      这将显示其他项目中使用了此项目中任务的任务。当前项目之外的所有任务均显示为灰色。

  • 卡片视图显示包含有关数据任务信息的卡片视图。

    您可以按资产类型和所有者进行过滤。

删除项目

  • 管道项目 视图中,单击项目上的 更多,然后选择 删除

您可以选择保留每个单独任务由任务创建的工件(表和视图),但以下始终保留工件的类型除外:

  • 登陆任务

  • 湖登陆任务

  • 复制任务

信息注释请记住,您保留的工件将不再由任务更新。

查看数据

在设计数据管道时,您可以查看数据样本以查看和验证数据的形状。

需要以下权限:

  • Administration 中的租户级别启用了查看数据。

    启用 设置 > 功能控制 > 数据集成 中查看数据

  • 在连接所在的空间中,为您分配了 可以查看数据 角色。

  • 在项目所在的空间中,为您分配了 可以查看 角色。

要在数据管道视图中查看样本数据:

  1. 单击管道视图底部预览横幅中的 向上

  2. 选择要预览其数据的数据任务。

将显示数据样本。您可以使用 行数 设置样本中包含的数据行数。

导出和导入项目

您可以将项目导出到包含重建项目所需的所有内容的 JSON 文件。导出的 JSON 文件可以导入到同一租户或另一个租户上。例如,您可以使用它将项目从一个租户移动到另一个租户,或制作项目的备份副本。

有关详细信息,请参阅 导出和导入数据管道

更改项目所有者

数据任务在其所属项目所有者的上下文中运行。您可以更改项目的所有者,以将数据项目中所有任务的控制权转移给其他用户。例如,如果存在由已删除用户拥有的项目,这将非常有用。

信息注释更改项目所有者需要租户管理员或数据管理员角色。有关所需角色和权限的详细信息,请参阅 数据空间角色和权限
  • 在项目视图中,单击 ...,然后单击 更改所有者

所有权更改将应用于项目中的所有任务。由项目中的任务创建的所有已编目数据集也将更改所有者。

更改数据平台连接

如果更改项目的 数据平台 连接,您必须:

  1. 在所有登陆任务中重新创建表。

  2. 准备项目中的所有其他任务。

查看项目信息

点击菜单条形上的 信息 以查看项目信息,例如:

  • 所有者

  • 空间

  • 数据平台

  • 项目 Id

项目设置

您可以设置项目和所有包含的数据任务通用的属性。

  • 单击 设置

有关详细信息,请参阅 数据管道项目设置

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!