创建数据管道项目
您可以创建一个数据管道,使用数据任务在项目中执行所有数据集成。载入操作将数据从本地或云中的数据源移动到项目中,并将数据存储在随时可用的数据集中。您可以将数据载入到云数据仓库或 Qlik Open Lakehouse 中。
将数据载入到云数据仓库时,您还可以执行转换并创建数据集市,以利用生成和转换的数据集。数据管道可以是简单且线性的,也可以是使用多个数据源并生成许多输出的复杂管道。
所有数据任务都将在其所属项目所在的同一空间中创建。
您还可以查看世系,以向后追踪数据和数据转换至原始来源,并执行影响分析,该分析显示数据任务、数据集或字段依赖关系的前瞻性下游视图。有关详细信息,请参阅 在 数据集成 只不过使用世系和影响分析。
将数据引入数据仓库
这包括将数据登陆到暂存区,然后将数据集存储在云数据仓库中。登陆和存储数据任务在单个步骤中创建。如果需要,您还可以使用单独的任务执行登陆和存储。
引入数据至 Qlik Open Lakehouse
创建 Qlik Open Lakehouse 管道项目,以将数据从任何受支持的源复制到 Iceberg 开放表格式。可以从您的云数据仓库分析引擎访问和查询表,而无需通过使用镜像数据任务来复制数据。
注册数据平台上已存在的数据
注册数据平台上已存在的数据,以整理和转换数据,并创建数据集市。这使您可以使用通过 Qlik Talend Data Integration 以外的其他工具(例如 Qlik Replicate 或 Stitch)载入的数据。
转换数据
基于规则和自定义 SQL 对载入的数据创建可重用的行级转换。这将创建一个转换数据任务。
Creating and managing data marts
创建数据集市以利用您的数据集。这将创建一个数据集市数据任务。
创建知识集市
创建知识集市,以将结构化和非结构化数据嵌入并存储在向量数据库中。这将创建一个知识集市数据任务。
目标数据平台
该项目与一个数据平台相关联,该平台用作所有输出的目标。
有关受支持的数据平台的详细信息,请参阅 建立与目标的连接。
项目视频简介
创建项目的示例
以下示例执行载入数据、转换数据和创建数据集市。这将创建一个简单的线性数据管道,您可以通过载入更多数据源、创建更多转换并将生成的数据任务添加到数据集市来扩展该管道。
项目中的线性数据管道示例
-
创建一个新项目。
在 数据集成 > 管道项目 中,单击 新建 > 项目。
-
输入项目的名称和描述。
信息注释如果稍后为项目启用版本控制,则在项目处于版本控制之下时,您将无法更改项目名称。 -
选择要在其中创建项目的空间。所有数据任务都将在其所属项目所在的空间中创建。
- 在 用例 中选择 数据管道。
-
选择要在项目中使用的平台。
-
选择与要在项目中使用的云数据仓库的连接。这将用于登陆数据文件并存储数据集和视图。如果您尚未准备好连接,请使用 新建 创建一个。
-
如果您选择 Google BigQuery、Databricks 或 Microsoft Azure Synapse Analytics 作为数据平台,您还需要连接到暂存区。
-
如果您选择 Snowflake 作为数据平台,您可以选择将数据登陆到云存储。请参阅 将数据登陆到 Lakehouse。
-
如果您选择 Qlik Cloud 作为数据平台:
您可以将数据存储在 Qlik 托管存储中,也可以存储在您自己托管的 Amazon S3 存储段中。如果要使用自己的 Amazon S3 存储段,则需要选择与该存储段的连接。
在这两种情况下,您还需要选择与 Amazon S3 暂存区的连接。如果使用在上一步中定义的相同存储段,请确保使用存储段中的另一个文件夹进行暂存。
-
-
单击 创建。
项目已创建,您可以通过添加数据任务来创建数据管道。
-
-
载入数据
在项目中,单击 创建,然后单击 载入数据。
有关详细信息,请参阅 将数据引入数据仓库。
这将创建一个登陆数据任务和一个存储数据任务。要开始复制数据,您需要:
-
转换数据
创建存储数据任务后,返回到项目。您现在可以对创建的数据集执行转换。
单击存储数据任务上的 ...,然后选择 转换数据,以基于此存储数据任务创建转换数据任务。有关转换的说明,请参阅 转换数据。
-
创建数据集市
您可以基于存储数据任务或转换数据任务创建数据集市。
单击数据任务上的 ...,然后选择 创建数据集市 以创建数据集市数据任务。有关创建数据集市的说明,请参阅:
当您对存储和转换的数据集以及数据集市执行了首次满负载后,您可以在分析应用程序中使用它们。有关创建分析应用程序的详细信息,请参阅 使用数据集成中生成的数据集创建分析应用程序。
您还可以通过载入更多数据源来扩展数据管道,并在转换或数据集市中将它们组合在一起。
构建跨项目管道
您可以构建跨项目管道,其中一个任务可以使用另一个项目中的任务。这使您可以通过几种可能的方式实现分段:
-
您可以为每个组织单位创建一个单独的数据移动管道,并在单个数据集市管道中使用这些输出。
-
您可以创建一个数据移动管道,并在多个转换管道中使用该输出。
转换和数据集市任务可以使用位于另一个项目中的存储和转换任务。
-
您必须在所使用项目所在的空间中至少具有 可以使用 角色。
-
两个项目必须位于同一数据平台上。
任务的所有数据集都与下游项目共享。这意味着,如果要实现数据集隔离,则必须通过创建转换任务在所使用的项目中过滤出数据集。
在项目视图中,您可以查看被另一个项目使用的任务,以及当前项目中使用的来自其他项目的任务。当前项目之外的所有任务均显示为灰色。依赖关系是通过引用而不是名称建立的,这意味着您可以重命名任务而不会破坏引用。这也意味着,如果您删除了被使用的任务并创建了一个同名的新任务,引用仍然会被破坏。
有几种方法可以重用现有数据:
-
创建新项目
在创建项目后选择 使用其他项目中的数据 选项。
您可以创建转换或数据集市,使用来自另一个管道的已载入数据。
-
在转换任务或数据集市任务中,您可以在 选择源数据 中选择来自另一个项目的数据。
选择源数据时,选择 项目。如果所选项目处于版本控制之下,请选择一个 分支。默认分支为 main。数据任务列表将更新以反映所选分支。然后选择一个 数据任务 以查看哪些数据集可用。
您可以选择是否要显示其他项目中使用了此项目中任务的任务。
-
单击 层 并打开或关闭 跨项目输出。
当前项目之外的所有任务均显示为灰色。
版本控制限制
由于跨项目管道分布在多个项目之间,这增加了使用版本控制时的复杂性。在这些示例中,Project1 被 Project2 使用。
跨项目管道示例

-
Project2 可以使用 Project1 的特定分支。在转换或数据集市任务的 选择源数据 中选择分支。默认分支为 main。如果引用的项目不受版本控制,则不会显示分支选择器,并且 Project2 将按原样使用该项目。
-
您可以为 Project1 创建一个分支,但分支版本不会显示它被 Project2 使用。
-
您可以将 Project2 合并到 main,但依赖关系仍然存在。
如果稍后删除了在 Project1 中选择的分支,则引用的破坏方式与删除引用的任务时相同。如果引用的任务在所选分支上具有不同的输出,则引用的行为与引用的任务输出更改时相同。
最佳实践
-
检查所使用项目中的任务是否至少已准备就绪,以确保它们有效。
-
如果您计划在租户之间导出和导入项目,如果在租户中保持空间和项目的名称相同,将会更容易。如果名称不同,则在导入项目时需要映射项目和任务。
-
如果要使用导出和导入更改数据平台,则所有具有依赖关系的项目必须位于同一平台上。
按照以下步骤进行安全轻松的平台更改。在此示例中,被使用的项目称为 Consumed,从 Consumed 读取的项目称为 Consumer。
-
导出 Consumed 和 Consumer。
-
将 Consumed 导入到 Consumed_New,更改为新的数据平台。
-
将 Consumer 导入到 Consumer_New,更改为与 Consumed_New 相同的数据平台,并将源项目 (Consumed) 替换为 Consumed_New。
-
数据管道项目中的操作
您可以将数据任务可用的相同操作作为项目操作执行。这使您可以编排数据管道中的操作。
-
打开和关闭计划
-
执行设计操作
-
启动和停止执行数据任务
-
删除数据任务
单击 操作 以查看正在进行的操作的状态,或最近执行的操作。
您可以通过单击 停止操作 来停止正在进行的操作。正在进行的数据任务不会停止,但它将取消任何尚未开始的任务。
打开和关闭计划
您可以在项目级别控制数据任务的计划。
-
单击 ...,然后单击 计划。
您可以为所有数据任务或选定的任务打开或关闭计划。仅显示定义了计划的任务。
信息注释此选项不适用于以 Qlik Cloud 作为数据平台的项目。
有关计划各个数据任务的详细信息,请参阅:
执行设计操作
您可以对项目中的所有数据任务或选定的任务执行设计操作。这使得控制项目中的数据集任务变得更加容易,而不是在每个任务中单独执行设计操作。
-
验证
单击 验证 以验证所有任务或选定的任务。自上次验证操作以来更改的数据任务将被预先选择。
数据任务按管道顺序进行验证。
-
准备
单击 准备 以准备所有任务或选定的任务。自上次准备操作以来更改的数据任务将被预先选择。
您可以选择重新创建需要数据平台不支持的结构更改的数据集。这可能会导致数据丢失。
-
重新创建
单击 ...,然后单击 重新创建表,以从源重新创建所有任务或选定任务的数据集。
信息注释如果个别表存在问题,建议首先尝试重新加载表,而不是重新创建它们。重新创建表可能会导致历史数据丢失。如果存在中断更改,还必须准备使用重新创建的数据任务的下游数据任务,以重新加载数据。
运行数据任务
您可以启动项目中所有数据任务或选定任务的执行,而不是单独运行任务。例如,您可以运行所有具有基于时间计划的任务。这将启动具有基于事件计划的下游任务。
-
运行
单击 运行 以启动所有任务或选定任务的执行。这将启动所有选定任务的运行,并在它们开始执行后立即完成。
您可以从所有准备好运行的任务中进行选择。具有基于时间计划的任务和使用 CDC 的任务将被预先选择。具有基于事件计划的任务不会被预先选择,因为它们将在有数据要处理时执行。
在以 Qlik Cloud 作为数据平台的项目中,所有登陆和存储任务都将被预先选择。
信息注释所有数据任务并行执行。这意味着依赖关系检查可能会阻止某些任务运行。 -
停止
单击 停止 以停止所有任务或选定的任务。
您可以从正在运行的任务中进行选择。
删除数据任务
-
单击“删除”以删除项目中的所有数据任务或选定的任务。
无法删除正在运行的任务或被其他任务使用的任务。
更改项目视图
项目有两种不同的视图。您可以通过单击 管道视图 在视图之间切换。
-
管道视图显示数据任务的数据流。
您可以通过单击 层 来选择要为数据任务显示多少信息。打开或关闭以下信息:
-
状态
-
数据新鲜度
-
计划
-
跨项目输出
这将显示其他项目中使用了此项目中任务的任务。当前项目之外的所有任务均显示为灰色。
-
-
卡片视图显示包含有关数据任务信息的卡片视图。
您可以按资产类型和所有者进行过滤。
删除项目
-
在 管道项目 视图中,单击项目上的
,然后选择 删除。
您可以选择保留每个单独任务由任务创建的工件(表和视图),但以下始终保留工件的类型除外:
-
登陆任务
-
湖登陆任务
-
复制任务
查看数据
在设计数据管道时,您可以查看数据样本以查看和验证数据的形状。
需要以下权限:
-
在 Administration 中的租户级别启用了查看数据。
启用 设置 > 功能控制 > 在 数据集成 中查看数据。
-
在连接所在的空间中,为您分配了 可以查看数据 角色。
-
在项目所在的空间中,为您分配了 可以查看 角色。
要在数据管道视图中查看样本数据:
-
单击管道视图底部预览横幅中的
。
-
选择要预览其数据的数据任务。
将显示数据样本。您可以使用 行数 设置样本中包含的数据行数。
导出和导入项目
您可以将项目导出到包含重建项目所需的所有内容的 JSON 文件。导出的 JSON 文件可以导入到同一租户或另一个租户上。例如,您可以使用它将项目从一个租户移动到另一个租户,或制作项目的备份副本。
有关详细信息,请参阅 导出和导入数据管道。
更改项目所有者
数据任务在其所属项目所有者的上下文中运行。您可以更改项目的所有者,以将数据项目中所有任务的控制权转移给其他用户。例如,如果存在由已删除用户拥有的项目,这将非常有用。
-
在项目视图中,单击 ...,然后单击 更改所有者。
所有权更改将应用于项目中的所有任务。由项目中的任务创建的所有已编目数据集也将更改所有者。
更改数据平台连接
如果更改项目的 数据平台 连接,您必须:
-
在所有登陆任务中重新创建表。
-
准备项目中的所有其他任务。
查看项目信息
点击菜单条形上的 以查看项目信息,例如:
-
所有者
-
空间
-
数据平台
-
项目 Id
项目设置
您可以设置项目和所有包含的数据任务通用的属性。
-
单击 设置。
有关详细信息,请参阅 数据管道项目设置。