跳到主要内容 跳到补充内容

在数据项目中创建数据管道

您可以创建数据管道,以使用数据任务在数据项目中执行所有数据集成。入职将数据从内部部署或云中的数据源移动到项目中,并将数据存储在随时可用的数据集中。您还可以执行转换并创建数据集市,以利用生成和转换的数据集。数据管道可以是简单的线性管道,也可以是一个复杂的管道,它消耗多个数据源并生成多个输出。

这些是您可以在数据项目中执行的主要任务。您可以根据自己的需要组合它们。

  1. 录入数据。

    这包括将数据登录到临时区域,然后将数据集存储在云数据仓库中。登陆和存储数据任务是在一个步骤中创建的。如果需要,您还可以使用单独的任务执行登陆和存储。

    录入数据

  2. 注册数据

    注册数据平台上已经存在的数据,并以读取优化的格式生成数据集。这使您可以使用由 Qlik Cloud 数据集成 之外的其他工具(例如 Qlik Replicate)引入的数据。

    注册数据平台上已存在的数据

  3. 转换录入的数据。

    基于规则和自定义 SQL 创建可重用的行级转换。这将创建“变换”数据任务。

    转换数据

  4. 创建数据集市以利用您的数据集。这将创建数据集市数据任务。

    创建和管理数据集市

数据项目与用作所有输出目标的数据平台相关联。支持以下平台:

  • Google BigQuery

  • Snowflake

  • Microsoft Azure Synapse Analytics

  • Databricks

  • Amazon Redshift

  • Qlik Cloud

    使用该平台需要将数据登陆到 Amazon S3 存储段中。您可以在 Qlik Cloud 托管存储或您管理的 Amazon S3 存储中生成 QVD 表。

有关连接到数据平台的更多信息,请参阅在数据项目中连接到云数据平台

所有数据任务都将在与其所属的数据项目相同的空间中创建。

创建数据项目的示例

下面的示例执行入职数据、转换数据和创建数据集市。这将创建一个简单的线性数据管道,您可以通过加入更多的数据源来扩展该管道,创建更多的转换,并将生成的数据任务添加到数据集市。

数据项目中的线性数据管道示例

  1. 单击新增,然后在 Qlik Cloud 数据集成 主视图中创建数据项目

    1. 输入数据项目的名称和说明,然后选择要在其中创建数据项目的空间。所有数据任务都将在其所属的数据项目的空间中创建。

    2. 选择要在项目中使用的数据平台。

    3. 选择要在项目中使用的到云数据仓库的数据连接。这将用于登陆数据文件并存储数据集和视图。如果尚未准备数据连接,请使用添加连接创建一个数据连接。

      如果您选择了 Google BigQuery、Databricks 或 Microsoft Azure Synapse Analytics 作为数据平台,您还需要连接到临时区域。

    4. 如果您选择了 Qlik Cloud 作为数据平台:

      您可以在 Qlik 托管存储中存储数据,也可以在自己的托管 AmazonS3 存储段中存储数据。如果您想使用自己的 AmazonS3 存储段,您需要选择到该存储段的数据连接。

      在这两种情况下,您还需要选择到 AmazonS3 暂存区域的数据连接。如果您使用的是在上一步中定义的同一个存储段,请确保使用存储段中的另一个文件夹进行暂存。

    5. 单击创建

      数据项目已创建,您可以通过添加数据任务来创建数据管道。

  2. 单击新增,然后单击录入数据

    有关更多信息,请参阅录入数据

    这将创建登陆数据任务和存储数据任务。要开始复制数据,您需要:

  3. 创建存储数据任务后,返回数据项目。现在可以对创建的数据集执行转换。

    单击存储数据任务上的 ...,然后选择转换数据以基于此存储数据任务创建转换数据任务。有关转换的说明,请参阅转换数据

  4. 您可以基于存储数据任务或转换数据任务创建数据集市。

    单击数据任务上的 ...,然后选择创建数据集市以创建数据集市数据任务。有关创建数据集市的说明,请参阅:

    创建和管理数据集市

例如,当您第一次满负载存储和转换的数据集和数据集市时,您可以在分析应用程序中使用它们。有关创建分析应用程序的更多信息,请参阅使用 Qlik Cloud 数据集成 生成的数据集创建分析应用程序

您还可以通过加入更多数据源来扩展数据管道,并在转换或数据集市中组合它们。

在数据项目中计划数据任务

您可以安排数据任务来协调数据管道。您可以使用基于时间的计划,或者使用基于事件的计划,让数据在数据管道可用时向下流动。

有关计划单个数据任务的详细信息,请参阅:

更改数据项目的视图

数据项目有两种不同的视图。您可以通过单击管道视图在视图之间切换。

  • 管道视图显示数据任务的数据流。

    通过单击,可以选择为数据任务显示的信息量。打开或关闭以下信息:

    • 状态

    • 数据新鲜度

    • 计划

  • 卡片视图显示卡片视图,其中包含有关数据任务的信息。

    您可以筛选资产类型和所有者。

导出和导入数据项目

您可以将数据项目导出为 JSON 文件,该文件包含重建数据项目所需的所有内容。导出的 JSON 文件可以在同一租户或另一租户上导入。例如,您可以使用此功能将数据项目从一个租户移动到另一个租户,或制作数据项目的备份副本。

有关更多信息,请参阅导出和导入数据项目

数据项目设置

您可以设置项目和所有包含的数据任务的公用属性。

  • 单击设置

有关更多信息,请参阅数据项目设置

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!