数据集市视图结构
本主题描述数据集市视图的内部标头列(通过其 hdr__ 前缀标识)。数据管道通常以数据集市为最高形式,数据集市将数据去规范化为星形模式。事实为分析师使用维度建模提供了一种方便的结构。因此,了解标题列的作用将使您能够为下游应用程序的分析和消费生成更集中的报告。
事实视图
视图名称格式:<DATA_ASSET_SCHEMA>.[<PREFIX>]<FACT>
将以下标头列添加到视图结构中。
列 |
类型 |
描述 |
---|---|---|
hdr__deleted | 布尔值 |
指示记录是否已从事实表中删除。 |
hdr__key_id{dimension-name} | int64 |
参考类型 1 和类型 2 维度。事实视图将包含事实中每个维度的单独列。 示例: hdr__EMPLOYEES_key_id |
类型 1 维度视图
视图名称格式:<DATA_ASSET_SCHEMA>.[<PREFIX>]<DIMENSION>
将以下标头列添加到视图结构中。
列 |
类型 |
描述 |
---|---|---|
hdr__key_id{dimension-name} | int64 |
按记录递增序列。 |
hdr__deleted | 布尔值 |
指示记录是否已从维度表中删除。 |
类型 2 维度视图
视图名称格式:<INTERNAL_SCHEMA>.[<PREFIX>]<DIMENSION>
将以下标头列添加到视图结构中。
列 |
类型 |
描述 |
---|---|---|
hdr__key_id{dimension-name} |
int64 |
按记录递增序列。 |
hdr__from_timestamp | 时间戳 |
此版本记录的 UTC 开始时间戳。例如,该列可能指示客户开始住在某个地址的日期。 此列允许您:
对于具有非规范化实体的类型 2 维度,这是存储或转换数据资产中更新数据集的时间戳。 |
hdr__to_timestamp | 时间戳 |
记录版本的 UTC 结束时间戳。该列用于界定给定记录版本的日期范围。例如,该列可能指示客户停止住在某个地址的日期。 另请参见上面 hdr_from_timestamp 列的描述。 |
hdr__operation | varchar(1) |
满负载操作:
变更处理操作(使用变更表):
比较和应用操作产生的操作:
|
hdr__was_current_from_timestamp | 时间戳 |
显示上次更新应用于记录的 UTC 时间戳。 该列与 hdr__was_current_to_timestamp 列一起,只知道您当时知道什么,允许您按特定日期分析数据,。例如,假设每天凌晨 2:00 计算前一天的订单总数。因此,在 12 月 1 日,前一天的订单总额为 1000000 美元。然而,在 12 月 2 日,插入了一条记录,称在 11 月 30 日,订单总额为 50 万美元。所以 11 月 30 日的订单金额实际上是 150 万美元!然而,如果您根据 12 月 1 日凌晨 2:00 的当前情况,生成 11 月 30 日订单总额的报告,结果仍然是 100 万美元。 |
hdr__was_current_to_timestamp | 时间戳 |
当记录被新记录替换时,将填充此列。它显示记录处理时间的UTC时间戳,因此不再是最新记录。 另请参见上面 hdr__was_current_from_timestamp 列的描述。 |