管理字段级元数据和数据分析
字段级元数据允许用户将别名、描述和分类应用于字段;这些特性有助于识别特定数据和敏感字段。
数据管理员通过分析访问有关其数据集的丰富技术信息。应用程序开发人员使用概要统计信息和数据采样,以获得创建应用程序和计划可视化的思路和方向。字段分析可以帮助数据分析师和商业用户更快地获得见解。他们可以概览性查看和可视化有价值的字段概要度量,而无需先创建一个应用程序。
权限
需要权限才能对数据进行剖析和采样。您必须在数据集的空间中具有允许您对数据源进行剖析的角色。有关更多信息,请参阅管理共享空间中的权限或管理托管空间中的权限。
管理字段级元数据
您可以从剖析选项卡访问和编辑数据集中每个字段的元数据。从 磁贴视图中选择任意卡,以及
列表视图中的任意行或
数据视图中的任何列,以打开网格右侧该字段的详细信息面板。字段级元数据字段(字段别名、描述、标记和分类)是可选的,可以从此面板中定义和编辑。
详细信息 | 描述 |
---|---|
字段别名 | 输入可选的替代名称,以使字段名称在概要分析中更有意义。别名字段名称仅显示在概要分析中,不会影响技术列名。 |
描述 |
输入任何可能有助于用户查看字段元数据和分析字段的信息。 |
标签 | 输入文本片段以定义和分类此字段及其数据。 |
分类 | 选中个人信息或敏感信息复选框。 |
具有多个工作表的 XLSX 文件的字段级元数据

分析数据
概要统计信息提供列分析,用于度量数据集中存在的发生率、范围和值。这些指标描述字段值之间的关系,例如以下字段值:
- 相异值的计数(基数)
- 样本值、最常见值以及值频率
- 可用于识别默认或潜在重复值的冗余
- 空值、字符串和数值的计数
- 有关值范围的信息,包括最小值、最大值、平均值、总和及标准偏差
目录提供了三种字段概要数据视图:
-
磁贴视图是一种基于卡片的可视化表示,以网格形式显示字段。
-
列表视图是可配置概要统计信息的表格摘要。
-
表格视图列出字段列名和数据集的前 20 条记录。
选择 Tile、List
或数据
图标以在概要视图之间切换。
平铺视图
概要平铺视图是一种可视字段剖析,用于显示该类型字段的信息量最大的内容。显示的默认视图卡类型由该字段的数值或文本值的数目是否更大来确定。例如,对于同时具有文本值和数字值的字段,如果字段中文本值较多,则默认情况下会显示最常用值卡类型;如果字段中的数字值较多,则会显示分级频率数字分发卡类型。提供了一个下拉切换,以便在选中 时您可以对有非唯一值的任何字段至切换到最常见的值卡类型;或者,如果选中分级频率
,您可以切换回数字分布卡。请注意,如果字段有空值,则所有卡类型都包含空值的数目。
磁贴视图:字段按对该字段中包含的数据类型有意义的指标进行剖析(例如:文本与数值)

样本值卡
当所有值都是唯一的且仅为文本时,将显示样本值卡。它将列出(最多)前三个值以及其他唯一值的总数。

样本值剖析标准:当基数较高(所有不同的值)时,使用此卡剖析字段值。在每个值都是基于文本且唯一的情况下,一些示例值提供了该类型字段数据的最佳初始视图。
每个示例值剖析卡提供:
- 字段名称
- 基数(相异值)
- 最多三个采样值(字段的值可能少于三个)
最常见值频率卡
最常见值频率卡显示了五个最常见值及其频率。如果有五个以上的相异值,这些值将合并并显示为其他。如果任何字段缺少值,则总计显示为空值。此剖析卡可应用于文本、数字或混合数据值。

最常见的值频率标准:值很少或值分布不均的字段将根据最常见值频率卡进行剖析。仅当存在多个相同值的实例时,才会应用此分析。用户可以快速了解字段值的分布。如果字段数据同时包含文本和数值,并且文本多于数值,则显示最常见值频率卡。当字段中有三个以上数值时,提供了分级频率切换。
每个最常见值频率剖析卡提供:
- 字段名称
- 基数(相异值)
- 最常见值及其频率
- 其他剩余值的组合频率
分级频率卡
Binned frequency(分级频率)卡显示与数字字段相关的分布和分析信息;包括最小、平均和最大数据值。如果字段数据同时包含文本和数值,并且数值多于文本,则显示 Binned frequency(分级频率)卡。Most Common Values Frequency(最常见值频率)卡类型可用于所有具有非唯一值的字段。
磁贴视图卡“分级频率数值分布

每个分级频率剖析卡提供:
- 字段名称
- 基数(相异值)
- 显示数字数据分布的直方图
- 最小值
- 平均值(数字之和除以数据集中的值总数)
- 最大值
列表视图
概要列表视图提供具有剖析统计选项的表格。用户在列选择器 下方检查对数据集最有意义的感兴趣的度量,这可以通过滚动到表的最右边缘找到。默认预选前九项统计。
列表视图:在表格上向右滚动,从列选择器中选择感兴趣的剖析统计信息

数据视图
概要数据视图将数据集显示为带有字段列名和(最多)前 20 个值的直接数据表。
数据视图:显示数据集列名和前 20 条记录

有限概要视图
某些数据集默认情况下不会被剖析。相反,概要会显示有限的数据概要。单击概要数据集可剖析数据。
以下数据类型在被剖析之前显示有限的概要视图:
-
QVD
-
Parquet
QVD 数据集的有限概要
