跳到主要内容 跳到补充内容

数据质量和数据发现

打开数据集后,您可以查看概述的几个部分,以了解有关其整体质量、模式、质量统计和每列的语义类型的更多信息。

警告注释目前,数据质量和语义类型特征仅适用于 Snowflake 数据集。从 Snowflake 以外的其他来源注册的数据集完全可用于数据产品,但在其概述中不会显示任何质量指标。

数据集的质量指标

当您打开刚刚注册的数据集的概览时,大部分信息都会显示为灰色。要首次计算数据质量,请单击计算按钮。如果质量之前已经计算过一次,但您想确保数据是最新的,请单击刷新按钮。

每次计算或刷新都会消耗 Snowflake 积分。有关更多信息,请参阅Snowflake 数据集的数据质量

有两个主要部分显示质量。

  • 数据质量区域,包括:

    • 以三种颜色的质量条及其各自的百分比的形式,在整个数据集中对有效值、无效值和空值进行重新分区。

    • 有效性得分,表示有效值的百分比,不考虑空值。

    • 完整性得分,表示非空值的百分比。

  • 显示数据集不同字段的模式区域,其已应用数据类型或语义类型,以及数据集每个字段的质量条。

提示注释如果无法检索数据集的模式和质量,请检查您在 Qlik Analytics Services 应用中心设置的连接是否正确填写了角色字段,或者角色本身是否授予了数据库表所需的权限。

语义类型发现

数据集的每个字段都会自动分配一个语义类型,以更好地描述其内容。在幕后,会进行数据发现操作以确定要分配的类型。

数据发现计算一列中有多少值与每种语义类型匹配,如果结果大于 40%,则将语义类型分配给该列。

百分比是如何计算的?

该百分比是两个百分比的总和:

  • 一个百分比表示与语义类型匹配的值的数量;高达 100% 分配。要确定值是否与语义类型匹配,数据发现取决于语义类型的类型:

    • 字典:该值是否与字典中的值匹配?标点符号、大小写、空格和重音符号被忽略。

    • 正则表达式:该值是否与正则表达式匹配?

    • 复合:是否在至少一个子项上发现了该值?

      复合类型是一组现有的语义类型,称为子类型。

    如果答案是肯定的,则该值被视为有效。

  • 另一个百分比表示列名与语义类型名称之间的相似性;分配高达 10%。

    比较名称:

    • 使用了 Levenshtein 算法。它计算将一个字符串转换为另一个字符串所需的最小编辑次数(插入、删除或替换)。

    • 大小写和重音符号被忽略了。

    • 如果字符串包含空格,则忽略单词顺序。例如,US Phone 和 Phone US 被认为是相同的。

    最大百分比为 100%。如果所有值都与语义类型匹配,并且列名与语义类型的名称相同,则结果仍然是 100%。

数据类型发现

除了语义类型,还可以分配本机数据类型。如果没有语义类型获得的占比超过 40%,则数据发现会自动分配一个数据类型。

为了确定哪种类型是值,数据发现遵循以下顺序:

  1. 值是否为空?

  2. 类型的值是布尔值吗?true 和 false 是唯一被认为是布尔值类型的值。

  3. 值类型是整数吗?

  4. 值类型是小数吗?

  5. 值类型是日期吗?

  6. 如果该值不是上述类型之一,则被视为文本值。

由于验证是增量的,因此值只有一种类型。例如,值 5 的类型为整数。它不会被视为文本类型。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!