管理字段级元数据和数据分析
数据管理员通过分析访问有关其数据集的丰富技术信息。应用程序开发人员使用分析统计信息和数据采样,以获得创建应用程序和计划可视化的思路和方向。字段分析可以帮助数据分析师和商业用户更快地获得见解。他们可以概览性查看和可视化有价值的字段分析度量,而无需先创建一个应用程序。字段级元数据允许用户将别名、描述和分类应用于字段;这些功能有助于识别特定数据和敏感字段。
管理字段级元数据
您可以从字段选项卡访问和编辑数据集中每个字段的元数据。从 磁贴视图中选择任意卡,以及 列表视图中的任意行或 数据视图中的任何列,以打开网格右侧该字段的详细信息面板。字段级元数据字段(字段别名、描述、标记和分类)是可选的,可以从此面板中定义和编辑。
详细信息 | 描述 |
---|---|
字段别名 | 输入可选的替代名称,以使字段名称在概要文件分析中更有意义。别名字段名称仅显示在配置文件分析中,不会影响技术列名。 |
描述 | 输入任何可能有助于用户查看字段元数据和分析字段的信息。 |
标记 | 输入文本片段以定义和分类此字段及其数据。 |
分类 | 选中个人信息或敏感信息复选框。 |
分析数据
分析统计信息提供列分析,用于度量数据集中存在的发生率、范围和值。这些指标描述字段值之间的关系,例如以下字段值:
- 相异值的计数(基数)
- 样本值、最常见值以及值频率
- 可用于识别默认或潜在重复值的冗余
- 空值、字符串和数值的计数
- 有关值范围的信息,包括最小值、最大值、平均值、总和及标准偏差
目录提供了三种字段分析数据视图:Tile view、List view 和 Data view。
Tile view 是一种基于卡片的可视化表示,以网格形式显示字段。
List view 是可配置概要统计信息的表格摘要。
Table view 列出字段列名和数据集的前 20 条记录。
选择 Tile、List 或数据 图标以在配置文件视图之间切换。
分析平铺视图
分析平铺视图是一种可视字段分析,用于显示该类型字段的信息量最大的内容。显示的默认视图卡类型由该字段的数值或文本值的数目是否更大来确定。例如,对于同时具有文本值和数字值的字段,如果字段中文本值较多,则默认情况下会显示最常用值卡类型;如果字段中的数字值较多,则会显示分级频率数字分发卡类型。提供了一个下拉切换,以便在选中 时您可以对有非唯一值的任何字段至切换到最常见的值卡类型;或者,如果选中分级频率 ,您可以切换回数字分布卡。请注意,如果字段有空值,则所有卡类型都包含空值的数目。
样本值卡
当所有值都是唯一的且仅为文本时,将显示样本值卡。它将列出(最多)前三个值以及其他唯一值的总数。
样本值分析标准:当基数较高(所有不同的值)时,使用此卡分析字段值。在每个值都是基于文本且唯一的情况下,一些示例值提供了该类型字段数据的最佳初始视图。
每个示例值分析卡提供:
- 字段名称
- 基数(相异值)
- 最多三个采样值(字段的值可能少于三个)
最常见值频率卡
最常见值频率卡显示了五个最常见值及其频率。如果有五个以上的相异值,这些值将合并并显示为其他。如果任何字段缺少值,则总计显示为空值。此分析卡可应用于文本、数字或混合数据值。
最常见的值频率标准:值很少或值分布不均的字段将根据最常见值频率卡进行分析。仅当存在多个相同值的实例时,才会应用此分析。用户可以快速了解字段值的分布。如果字段数据同时包含文本和数值,并且文本多于数值,则显示最常见值频率卡。当字段中有三个以上数值时,提供了分级频率切换。
每个最常见值频率分析卡提供:
- 字段名称
- 基数(相异值)
- 最常见值及其频率
- 其他剩余值的组合频率
分级频率卡
Binned frequency(分级频率)卡显示与数字字段相关的分布和分析信息;包括最小、平均和最大数据值。如果字段数据同时包含文本和数值,并且数值多于文本,则显示 Binned frequency(分级频率)卡。Most Common Values Frequency(最常见值频率)卡类型可用于所有具有非唯一值的字段。
每个分级频率分析卡提供:
- 字段名称
- 基数(相异值)
- 显示数字数据分布的直方图
- 最小值
- 平均值(数字之和除以数据集中的值总数)
- 最大值
配置文件数据视图
配置文件数据视图将数据集显示为带有字段列名和(最多)前 20 个值的直接数据表。
权限
需要权限才能对数据进行分析和采样。您必须在数据集的空间中具有允许您对数据源进行分析的角色。有关详细信息,请参阅管理共享空间中的权限或 管理托管空间中的权限。