数据质量和数据发现
打开数据集后,您可以查看概述的几个部分,以了解有关其整体质量、模式、质量统计和每列的语义类型的更多信息。
数据集的质量指标
当您打开刚刚注册的数据集的概览时,大部分信息都会显示为灰色。要首次计算数据质量,请单击计算按钮。如果质量之前已经计算过一次,但您想确保数据是最新的,请单击刷新按钮。
每次在下推中计算或刷新都会消耗 Snowflake 积分。有关更多信息,请参阅Data quality for connection-based datasets。
有两个主要部分显示质量。
-
数据质量区域,包括:
-
以三种颜色的质量条及其各自的百分比的形式,在整个数据集中对有效值、无效值和空值进行重新分区。
-
有效性得分,表示有效值的百分比,不考虑空值。
-
完整性得分,表示非空值的百分比。
-
新鲜度时间,表示数据源的最后一次更新时间。有关更多信息,请参阅数据新鲜度。
-
-
显示数据集不同字段的模式区域,其已应用数据类型或语义类型,以及数据集每个字段的质量条。
语义类型发现
数据集的每个字段都会自动分配一个语义类型,以更好地描述其内容。在幕后,会进行数据发现操作以确定要分配的类型。
数据发现计算一列中有多少值与每种语义类型匹配,如果结果大于 40%,则将语义类型分配给该列。
百分比是如何计算的?
该百分比是两个百分比的总和:
-
一个百分比表示与语义类型匹配的值的数量;高达 100% 分配。要确定值是否与语义类型匹配,数据发现取决于语义类型的类型:
-
字典:该值是否与字典中的值匹配?标点符号、大小写、空格和重音符号被忽略。
-
正则表达式:该值是否与正则表达式匹配?
-
复合:是否在至少一个子项上发现了该值?
复合类型是一组现有的语义类型,称为子类型。
如果答案是肯定的,则该值被视为有效。
-
-
另一个百分比表示列名与语义类型名称之间的相似性;分配高达 10%。
比较名称:
-
使用了 Levenshtein 算法。它计算将一个字符串转换为另一个字符串所需的最小编辑次数(插入、删除或替换)。
-
大小写和重音符号被忽略了。
-
如果字符串包含空格,则忽略单词顺序。例如,US Phone 和 Phone US 被认为是相同的。
最大百分比为 100%。如果所有值都与语义类型匹配,并且列名与语义类型的名称相同,则结果仍然是 100%。
-
数据类型发现
除了语义类型,还可以分配本机数据类型。如果没有语义类型获得的占比超过 40%,则数据发现会自动分配一个数据类型。
为了确定哪种类型是值,数据发现遵循以下顺序:
-
值是否为空?
-
值类型是布尔值吗?true 和 false 是唯一被认为是布尔值类型的值。
-
值类型是整数吗?
-
值类型是小数吗?
-
值类型是日期吗?
-
如果该值不是上述类型之一,则被视为文本值。
由于验证是增量的,因此值只有一种类型。例如,值 5 的类型为整数。它不会被视为文本类型。