创建和管理数据集市

一旦您登录了数据，就可以使用存储或转换任务中的数据创建数据集市。您可以根据业务需要创建任意数量的数据集市。理想情况下，您的数据集市应该包含收集的汇总数据的存储库，以便对组织内的特定部门或单位（例如销售部门）进行分析。

数据集市创建可通过 Qlik Talend Cloud Premium 或 Qlik Talend Cloud Enterprise 订阅获得。

无论数据集市是基于存储任务还是基于转换任务，创建数据集市的过程都是相同的。本部分中的说明假定数据集市基于存储任务。

数据任务在其所属项目的所有者的上下文中运行。有关所需角色和权限的更多信息，请参阅数据空间角色和权限。

除了在数据仓库中存储表外，您还可以将表存储为由数据平台管理的 Iceberg 表。此选项目前仅适用于 Snowflake 项目。在任务设置中的表类型下选择 Snowflake 托管的 Iceberg 表，就可以实现这一点。

先决条件

在创建数据集市之前，您需要执行以下操作：

用要在数据集市中使用的数据（来自登陆）填充存储。有关更多信息，请参阅录入数据。
创建数据集关系模型以定义源数据集之间的关系。有关更多信息，请参阅 创建数据模型。

警告注释所有源数据集都必须具有密钥。

创建数据集市

创建数据集市：

打开您的项目。
执行以下操作之一：
- 单击右上角的创建，然后选择创建数据集市。
- 在存储数据任务中，单击右下角的，然后选择创建数据集市。
创建数据集市对话框打开。
提供数据集市的名称，并可选地提供描述。
如果以后要配置数据集市，请清除打开复选框，然后单击创建。否则，只需单击创建。

数据集市在数据集市选项卡上打开。
选择源数据，如选择您的源数据中所述
如果希望数据集市包含维度，请按向数据集市添加维度和事实中所述添加维度
如果希望数据集市包含事实，请添加一个事实，如添加事实中所述
如果数据集市同时包含维度和事实，请将维度添加到星型模式中，如构建星型模式中所述
在数据集市中创建数据集，并用填充数据集市中所述的数据填充它们

选择您的源数据

您可以从存储或转换数据任务中的数据集中选择源数据。

为此：

单击选项卡中间的选择源数据按钮，或单击选择源数据工具栏按钮。

选择源数据对话框打开。
从项目下拉列表中，选择要从哪个项目获取源数据。

您可以从当前项目或其他项目添加数据集。要从另一个项目添加数据集，请执行以下操作：
- 您必须在已消费项目的空间中至少具有可以使用角色。
- 这两个项目必须位于同一数据平台上。
有关跨项目管道的详细信息，请参阅构建跨项目管道。
从数据任务下拉列表中，选择存储任务或转换任务（如果创建了转换）。
保留默认 % 以搜索所有数据集，或输入要查找的特定数据集的名称。然后单击搜索。
选择所需的数据集，然后单击添加所选表。
单击确定关闭对话框，然后继续添加事实和/或添加维度

您可以重复此过程以从其他数据任务添加数据集。

向数据集市添加维度和事实

一旦选择了源数据，就可以继续构建数据集市。数据集市可以有事实数据集、维度数据集或两者的组合（其中维度数据集在逻辑上与事实数据集相关）。

添加维度

添加维度。

单击添加维度按钮。

将打开添加维度对话框。
有以下设置可用：
- 粒度最细数据集：选择一个数据集。
- 名称：指定维度的显示名称。默认值是最精细的数据集名称。
- 描述：任选地，提供描述。
- 历史类型：选择以下选项之一：
  - 类型 1：每当更新存储中的相应记录时，都会更新维度中的现有记录。
  - 类型 2：每当更新存储中的相应记录时，都会向维度添加新记录。
- 要去规范化的相关数据集：可以在维度数据集中（根据源数据资产模型中的关系）反规范化的任何数据集都可以在此处进行选择。
  
  可以去规范化的维度示例
单击确定保存设置。

维度将添加到左侧的维度列表中。

另请参阅角色扮演维度。

查看有关维度的信息

选择维度时，源关系模型选项卡将显示在中心窗格中。此选项卡显示在维度中合并的源数据集。添加维度时选择去规范化的数据集将显示为选中（并灰显）。

添加事实

要添加事实：

单击添加事实按钮。

随即打开添加事实对话框。
有以下设置可用：
- 事实：选择作为事实的数据集。数据集应该定义您正在创建的事实的粒度。
- 名称：指定事实的显示名称。默认值为事实名称。
- 描述：任选地，提供描述。
- 要去规范化的相关数据集：任何可以在事实数据集中进行非规范化的数据集都可以在此处进行选择。
- 高级
  - 使用当前数据：选中（默认）时，事实将不包含交易数据列。
  - 选择交易日期：要根据特定交易日期查找数据，请选择此选项，然后选择日期列。如果星型模式包含类型 2 维度，并且需要为特定事务找到正确的数据，那么这很有用。例如，如果客户有多个地址，则可能根据订单日期找到正确的地址。
    
    示例用例：
    
    零售商需要创建一个数据集市来分析订单和客户之间的关系。数据集市应该能够回答以下问题：2022 年第四季度，美国哪个州的订单总额最高？
    
    如果零售商选择使用当前数据选项，则只有客户表中的最新记录版本将包含在计算中。
    
    忽略交易日期将导致数据不准确，如下所示：
    
    但是，如果零售商选择选择交易日期选项，则客户的订单将与客户表中的正确记录版本相关联。
    
    这将使零售商能够准确计算 2022 年第 4 季度各州的订单总额。
    
    提示注释请注意，根据业务需要，每个数据集市中的交易日期可以不同方式被利用。例如，在一个数据集市中，它可以用于分析订单日期，而在另一个数据集市中，它可用于分析发货日期。
单击确定保存设置。

这一事实将被添加到左侧的事实列表中。

查看有关事实的信息

当您选择一个事实时，以下选项卡将显示在中央窗格中：

星型模式模型（默认）：显示数据集市中数据集关系的图形表示。
事实模型：显示与事实数据集相关的任何数据集。添加事实时选择去规范化的数据集将显示为选中（并灰显）。

具有去规范化订单数据集的订单详细信息事实
交易日期：如果在添加事实时选择了选择交易日期选项，则为交易列的名称。

未知和延迟到达的维度处理

每个维度都包含 -1 和 0 行，它们是维度的业务键（对象 ID）。行 -1 保留用于延迟到达的维度，而 0 保留用于未知维度。

不明维度

“未知”是指最初创建维度时不可用的数据。例如，假设您有一个 ORDER 事实，其中 SHIPPER 列是 SHIPPER 维度的业务键。如果 ORDER 事实行尚未发货，因此 SHIPPER 列为 NULL，则它将与 0 记录相关（表示维度的未知）。当 ORDER 事实稍后用 SHIPPER 值（例如 USPS）更新时，相关维度 ID (0) 将相继更新。

“未知”也可能是缺失或不存在的数据，这些数据可能永远不会被添加。

延迟到达维度

延迟到达维度具有一个键，该键存在于新的事实数据中，但尚未存在于维度中。例如，如果 ORDER 事实中的 SHIPPER 对新发货方的值为“NEWSHIP”，并且该业务键在 DIM_SHIPPER 维度中尚不存在，则数据集市处理将把该事实与 -1 行相关联。这表示维度表中缺少维度成员。当 DIM_SHIPPER 维度的“NEWSHIP”业务键到达时，将创建其维度行，并更新事实记录以与之前缺失的维度对齐。

构建星型模式

一旦向数据集市添加了维度，就可以继续将它们连接到事实数据集，从而创建一个星型模式。

为此：

在左侧的事实列表中选择您的事实。
从右侧的推荐尺寸列表中选择要添加的尺寸。

建议的维度用虚线连接到事实数据集。

在下图中，一些维度是早先添加的，因此用灰色实线连接。
单击应用以添加尺寸。

维度将显示为以灰色实线连接到事实数据集。
要关闭推荐维度面板，请单击。

填充数据集市

一旦设计了数据集市，就可以继续填充它。

为此：

单击右上角的准备工具栏按钮。

准备过程包括在数据集市中创建数据集和视图，以及更新目录。

您可以按照屏幕下部准备进度下的进度进行操作。

准备完成后，准备按钮变为运行。
也可以验证数据集市，如下面的验证和同步您的数据集市所述。
单击运行按钮。

窗口切换到监视器视图，显示数据集市中数据集的加载进度和状态。

数据集市将处理每个源记录，甚至删除的记录。这样做是为了确保保留历史信息。

对于具有类型 2 历史记录的维度数据集，已处理的记录计数将包括记录的所有版本行，并且显示的值高于已处理的实际记录数。

验证和同步您的数据集市

验证数据集市可确保数据集市元数据与存储（如果定义了转换则为转换）中的相应元数据相同。验证数据集市还将创建的元数据与当前的星型模式设计进行比较。例如，如果在向已经创建的数据集市添加维度后运行验证，则验证将失败。

要验证数据集市：

从运行按钮右侧的菜单中选择验证数据集，或单击窗口右下角的验证数据集中按钮。

将显示验证已完成消息。
如果元数据不同步，或者存在星型模式设计冲突，则窗口底部的验证和调整窗格将自动打开，并显示验证报告。

具有星型模式设计冲突的数据集市示例：

带有验证错误的数据集市示例：
要解决任何待定设计更改问题，请单击右上角的按钮，然后选择准备。如果可以在不丢失数据的情况下进行更改列的值为是，则将执行 ALTER 操作。否则，将重新创建数据集市表。

请注意，所有验证错误都需要手动解决。

管理数据集市

本部分介绍了用于管理数据集和数据集市的各种选项。

细化事实或维度

在数据集选项卡中，您可以执行各种操作来细化事实和维度，例如创建转换规则（例如，替换列值）和添加列级表达式。数据集选项卡位于数据集市选项卡的右侧：

添加规则

有关如何添加全局规则的说明，请参阅创建规则以转换数据集

有关规则以及可以对数据集执行的其他操作的更多信息，请参阅管理数据集。请注意，有些选项（如筛选和重命名数据集）不适用于数据集市数据任务。

添加新的列

您可以向目标数据集添加新列。

从头开始添加列

单击 + 添加。

提供列名称，并设置表达式来定义列数据。

有关更多信息，请参阅向数据集添加列。
从源添加列

单击添加旁边的，然后选择从源添加列。

从源数据集中选择列。

对列重新排序

您可以更改列的序数位置。

选择列。
单击，然后单击重新排序。
使用箭头将列向上或向下移动。
准备就绪后关闭更改序数。

角色扮演维度

角色扮演维度是在同一个星型模式中多次使用的同一维度，但具有不同的含义。这在“日期”和“客户”维度中很常见。例如，您的星型模式可能有两个日期实体，一个表示订单日期，另一个表示接收日期。

要添加或编辑维度的角色名称：

单击维度节点中的图标，然后选择编辑角色。
在编辑角色对话框中，在星型模式中的角色名称字段中输入名称（或编辑现有名称），然后单击确定。

角色名称将显示在维度名称下方。

其他管理选项

下表介绍了其他管理选项：

止	进行该操作
添加其他源数据集	请参阅选择您的源数据。
添加其他事实	请参阅添加事实
添加其他尺寸	请参阅向数据集市添加维度和事实。
删除维度	在维度窗格中选择尺寸，然后从菜单中选择删除。
删除事实	在事实窗格中选择该事实，然后从菜单中选择删除。
重新创建数据集市	单击右上角的按钮，然后选择重新创建表格。例如，如果存储中存在无法自动同步到数据集市的更改，则可能需要重新创建数据集市。
停止正在运行的数据集市任务	单击右上角的停止按钮。
准备数据集市任务	单击右上角的按钮，然后选择准备以将数据集与转变或存储资产同步，并解决任何设计冲突。此操作将为任务的执行做好准备。相关准备包括：验证设计是否有效。创建或更改物理表和视图以匹配设计。为数据任务生成 SQL 代码。为任务输出数据集创建或更改目录条目。您可以按照屏幕下部准备进度下的进度进行操作。

计划数据集市任务

您可以将数据集市任务计划为定期更新。您可以设置基于时间的计划，或将任务设置为在输入数据任务完成运行后运行。

单击数据任务上的 ...，然后选择计划以创建计划。默认计划设置继承自项目中的设置。有关默认设置的详细信息，请参阅数据集市默认值。

要将计划设置为打开才能启用计划。

基于时间的计划

无论何时更新不同的输入源，都可以使用基于时间的计划来运行任务。

在运行数据任务中选择在特定时间。

您可以设置每小时、每天、每周或每月计划。

基于事件的计划

当输入数据任务完成运行时，可以使用基于事件的计划来运行任务。

在运行数据任务中选择特定事件发生时。

您可以选择是否要在任何输入任务成功完成时运行该任务，或在任何选择的输入任务已成功完成时执行该任务。

如果触发计划时正在运行任何输入任务或下游任务，则该任务将不会运行。将跳过该任务，直到下一次计划运行。

重新加载数据

您可以手动重新加载数据。当一个或多个表出现问题时，这很有用。

打开数据任务，然后选择监视器选项卡。
选择要重新加载的表。

当选择重新加载维度时，使用该维度的所有事实也将重新加载以保持完整性。
单击重新加载表。

通过单击取消重新加载，可以取消正在等待重新加载的表的重新加载。这不会影响已经重新加载的表，并且当前正在运行的重新加载将完成。

重新加载由以下人员执行：

截断选定的维度和事实。
从上游数据任务加载选定的维度表。
从上游数据任务加载事实数据表。相关准备包括：
- 显式选择的事实表。
- 与重新加载的维度相关的事实表。

如果重新加载维度 x 和相关事实 a，然后使用维度 x 创建新的事实 b，则不会自动重新加载事实 b。您必须手动重新加载新事实 b。

数据集市设置

单击设置工具栏按钮打开设置：<data-mart-name> 对话框。

如果任务已经运行，则更改运行时设置以外的设置需要重新创建数据集。

一般设置

在一般选项卡中，有以下设置可用：

数据库：将在其中创建数据集市的数据库
数据任务架构：将在其中创建数据集的架构
内部模式：将在其中创建内部数据集的架构
模式名称的默认大写

您可以为所有架构名称设置默认大小写。如果您的数据库配置为强制大写，则此选项将无效。
所有表格和视图的前缀
可以为使用此任务创建的所有表和视图设置前缀。

信息注释如果要在多个数据任务中使用数据库架构，则必须使用唯一的前缀。

运行时设置

在运行时选项卡中，有以下设置可用：

平行执行：输入允许 Qlik Cloud 为任务打开的最大数据库连接数。默认数字为 10。
仓库：仅与 Snowflake 相关。 Snowflake 数据仓库的名称。

目录设置

发布至目录

选择此选项可将此版本的数据作为数据集发布到目录。目录内容将在下次准备此任务时更新。

有关目录的更多信息，请参阅通过目录工具理解您的数据。

表格类型设置

这些设置仅在以 Snowflake 为数据平台的项目中可用。

表类型

您可以选择使用哪种表格类型：
- Snowflake 表格
- Snowflake-托管 Iceberg 表格
  
  您必须在 Snowflake 外部卷中设置外部卷的默认名称。
要使用的云存储文件夹

选择将数据放置到暂存区时要使用的文件夹。
- 默认文件夹
  
  这将创建具有该默认名称的文件夹：<project name>/<data task name>。
- 根文件夹
  
  将数据存储在存储的根文件夹中。
- 文件夹
  
  指定要使用的文件夹名称。
与 Snowflake 开放目录同步

启用此选项可让 Snowflake 开放目录管理云文件存储中的文件。

了解详情

数据集市视图结构

本页面有帮助吗？

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进！

在此处留下您的反馈