创建数据管道
您可以创建数据管道,以使用数据任务在项目中执行所有数据集成。入职将数据从内部部署或云中的数据源移动到项目中,并将数据存储在随时可用的数据集中。您还可以执行转换并创建数据集市,以利用生成和转换的数据集。数据管道可以是简单的线性管道,也可以是一个复杂的管道,它消耗多个数据源并生成多个输出。
所有数据任务都将在与其所属的项目相同的空间中创建。
您还可以查看世系以跟踪数据和向后到原始源的数据转换,并执行影响分析,显示数据任务、数据集或字段依赖项的前瞻性下游视图。有关更多信息,请参阅在 数据集成 只不过使用世系和影响分析。
录入数据
这包括将数据登录到临时区域,然后将数据集存储在云数据仓库中。登陆和存储数据任务是在一个步骤中创建的。如果需要,您还可以使用单独的任务执行登陆和存储。
注册数据平台上已存在的数据
注册数据平台上已经存在的数据,以整理和转换数据,并创建数据集市。这使您可以使用除 Qlik Talend Data Integration 以外的其他工具提供的数据,例如 Qlik Replicate 或 Stitch。
目标数据平台
项目与用作所有输出目标的数据平台相关联。
有关支持的数据平台的更多信息,请参阅建立与目标的连接。
项目视频介绍
创建项目的示例
下面的示例执行入职数据、转换数据和创建数据集市。这将创建一个简单的线性数据管道,您可以通过加入更多的数据源来扩展该管道,创建更多的转换,并将生成的数据任务添加到数据集市。
-
创建新的项目。
在数据集成 > 项目中,单击创建项目。
-
输入项目的名称和说明,然后选择要在其中创建项目的空间。所有数据任务都将在其所属的项目的空间中创建。
- 在用例中选择数据管道。
-
选择要在项目中使用的数据平台。
-
选择要在项目中使用的到云数据仓库的连接。这将用于登陆数据文件并存储数据集和视图。如果尚未准备连接,请使用添加连接创建一个数据连接。
如果您选择了 Google BigQuery、Databricks 或 Microsoft Azure Synapse Analytics 作为数据平台,您还需要连接到临时区域。
-
如果您选择了 Qlik Cloud 作为数据平台:
您可以在 Qlik 托管存储中存储数据,也可以在自己的托管 AmazonS3 存储段中存储数据。如果您想使用自己的 AmazonS3 存储段,您需要选择到该存储段的连接。
在这两种情况下,您还需要选择到 AmazonS3 暂存区域的连接。如果您使用的是在上一步中定义的同一个存储段,请确保使用存储段中的另一个文件夹进行暂存。
-
单击创建。
项目已创建,您可以通过添加数据任务来创建数据管道。
-
-
录入数据
在项目中,单击新增,然后单击录入数据。
有关更多信息,请参阅录入数据。
这将创建登陆数据任务和存储数据任务。要开始复制数据,您需要:
-
转换数据
创建存储数据任务后,返回项目。现在可以对创建的数据集执行转换。
单击存储数据任务上的 ...,然后选择转换数据以基于此存储数据任务创建转换数据任务。有关转换的说明,请参阅转换数据。
-
创建数据集市
您可以基于存储数据任务或转换数据任务创建数据集市。
单击数据任务上的 ...,然后选择创建数据集市以创建数据集市数据任务。有关创建数据集市的说明,请参阅:
例如,当您第一次满负载存储和转换的数据集和数据集市时,您可以在分析应用程序中使用它们。有关创建分析应用程序的更多信息,请参阅使用 Qlik Talend Data Integration 生成的数据集创建分析应用程序。
您还可以通过加入更多数据源来扩展数据管道,并在转换或数据集市中组合它们。
项目中的操作
您可以执行与项目操作相同的可用于数据任务的操作。这允许您对数据管道中的操作进行协调。
-
打开和关闭计划
-
执行设计操作
-
开始和停止执行数据任务
-
删除数据任务
单击操作以查看正在进行的操作或最近执行的操作的状态。
单击停止操作可以停止正在进行的操作。正在进行的数据任务不会停止,但会取消任何尚未开始的任务。
打开和关闭计划
您可以在项目级别控制数据任务的计划。
-
单击 ...,然后单击计划。
您可以打开或关闭所有数据任务或所选任务的计划。仅显示已定义计划的任务。
信息注释此选项不可用于以 Qlik Cloud 作为数据平台的项目。
有关计划单个数据任务的详细信息,请参阅:
执行设计操作
可以对项目中的所有数据任务或所选任务执行设计操作。这让控制项目中的数据集任务变得更容易,而不是在每个任务中单独执行设计操作。
-
验证
单击验证以验证所有任务或所选任务。将预先选择自上次验证操作以来更改的数据任务。
将按管道顺序验证数据任务。
-
准备
单击准备以准备所有任务或所选任务。将预先选择自上次准备操作以来更改的数据任务。
您可以选择重新创建需要数据平台不支持的结构更改的数据集。这会导致数据丢失。
-
重新创建
单击 ... 然后单击重新创建以从所有任务或所选任务的源重新创建数据集。
运行数据任务
您可以启动项目中所有数据任务的执行,也可以启动所选任务的执行而不是单独运行任务。例如,您可以使用基于时间的计划运行所有任务。这将使用基于事件的计划启动下游任务。
-
运行
单击运行以启动所有任务或所选任务的执行。这将启动所有所选任务的运行,并在它们开始执行时立即完成。
您可以从所有准备好运行的任务中进行选择。会预先选择具有基于时间的计划的任务和使用 CDC 的任务。不会预先选择具有基于事件的计划的任务,因为将在有要处理的数据时执行它们。
在以 Qlik Cloud 作为数据平台的项目中,会预先选择所有登陆和存储任务。
信息注释所有数据任务都是并行执行的。这意味着依赖关系检查可能会阻止某些任务运行。 -
停止
单击停止以停止所有任务或所选任务。
您可以从正在运行的任务中进行选择。
删除数据任务
-
单击“删除”可删除项目中的所有数据任务或所选任务。
更改项目的视图
项目有两种不同的视图。您可以通过单击管道视图在视图之间切换。
-
管道视图显示数据任务的数据流。
通过单击层,可以选择为数据任务显示的信息量。打开或关闭以下信息:
-
状态
-
数据新鲜度
-
计划
-
-
卡片视图显示卡片视图,其中包含有关数据任务的信息。
您可以筛选资产类型和所有者。
查看数据
在设计数据管道时,您可以查看数据示例以查看和验证数据的形状。
需要以下权限:
-
在 Administration 中的租户级别上启用了查看数据的功能。
启用设置>特性控制 > 在 数据集成 中查看数据。
-
您将在连接所在的空间中分配可以查看数据角色。
-
您将在项目所在的空间中分配可以查看角色。
要在数据管道视图中查看示例数据,请执行以下操作:
-
单击管道视图底部预览横幅中的 。
-
选择要为其预览数据的数据任务。
将显示数据示例。可以使用行数设置要包含在示例中的数据行数。
导出和导入项目
您可以将项目导出为 JSON 文件,该文件包含重建数据项目所需的所有内容。导出的 JSON 文件可以在同一租户或另一租户上导入。例如,您可以使用此特性将项目从一个租户移动到另一个租户,或制作项目的备份副本。
有关更多信息,请参阅导出和导入数据管道。
项目设置
您可以设置项目和所有包含的数据任务的公用属性。
单击设置。
有关更多信息,请参阅数据管道项目设置。