跳到主要内容 跳到补充内容

数据集市视图结构

本主题描述数据集市视图的内部标头列(通过其 hdr__ 前缀标识)。数据管道通常以数据集市为最高形式,数据集市将数据去规范化为星形模式。事实为分析师使用维度建模提供了一种方便的结构。因此,了解标题列的作用将使您能够为下游应用程序的分析和消费生成更集中的报告。

事实视图

视图名称格式:<DATA_ASSET_SCHEMA>.[<PREFIX>]<FACT>

将以下标头列添加到视图结构中。

表头字段

类型

描述

hdr__deleted 布尔值

指示记录是否已从事实表中删除。

hdr__key_id{dimension-name} int64

参考类型 1 和类型 2 维度。事实视图将包含事实中每个维度的单独列。

示例:

hdr__EMPLOYEES_key_id

类型 1 维度视图

视图名称格式:<DATA_ASSET_SCHEMA>.[<PREFIX>]<DIMENSION>

将以下标头列添加到视图结构中。

表头字段

类型

描述

hdr__key_id{dimension-name} int64

按记录递增序列。

hdr__deleted 布尔值

指示记录是否已从维度表中删除。

类型 2 维度视图

视图名称格式:<INTERNAL_SCHEMA>.[<PREFIX>]<DIMENSION>

将以下标头列添加到视图结构中。

表头字段

类型

描述

hdr__key_id{dimension-name}

int64

按记录递增序列。

hdr__from_timestamp 时间戳

此版本记录的 UTC 开始时间戳。例如,该列可能指示客户开始住在某个地址的日期。

此列允许您:

  • 根据历史信息分析数据。例如,您可以确定订单处于待定状态的时间长度,或者与去年的数据相比,客户地址的变化如何影响销售。
  • 按日期分析数据,但要知道您现在知道什么。相比之下,下面描述的 hdr__was_current_from_timestamp 只知道您当时知道什么,允许您按特定日期分析数据。

对于具有非规范化实体的类型 2 维度,这是存储或转换数据资产中更新数据集的时间戳。

hdr__to_timestamp 时间戳

记录版本的 UTC 结束时间戳。该列用于界定给定记录版本的日期范围。例如,该列可能指示客户停止住在某个地址的日期。

另请参见上面 hdr_from_timestamp 列的描述。

hdr__operation varchar(1)

满负载操作:

  • L:满负载期间插入

变更处理操作(使用变更表):

  • D:已删除
  • U:已更新
  • I:已插入

比较和应用操作产生的操作:

  • d:已删除
  • u:已更新
  • i:已插入
hdr__was_current_from_timestamp 时间戳

显示上次更新应用于记录的 UTC 时间戳。

该列与 hdr__was_current_to_timestamp 列一起,只知道您当时知道什么,允许您按特定日期分析数据,。例如,假设每天凌晨 2:00 计算前一天的订单总数。因此,在 12 月 1 日,前一天的订单总额为 1000000 美元。然而,在 12 月 2 日,插入了一条记录,称在 11 月 30 日,订单总额为 50 万美元。所以 11 月 30 日的订单金额实际上是 150 万美元!然而,如果您根据 12 月 1 日凌晨 2:00 的当前情况,生成 11 月 30 日订单总额的报告,结果仍然是 100 万美元。

hdr__was_current_to_timestamp 时间戳

当记录被新记录替换时,将填充此列。它显示记录处理时间的UTC时间戳,因此不再是最新记录。

另请参见上面 hdr__was_current_from_timestamp 列的描述。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!