跳到主要内容 跳到补充内容

管理字段级元数据和数据分析

数据管理员通过分析访问有关其数据集的丰富技术信息。应用程序开发人员使用分析统计信息和数据采样,以获得创建应用程序和计划可视化的思路和方向。字段分析可以帮助数据分析师和商业用户更快地获得见解。他们可以概览性查看和可视化有价值的字段分析度量,而无需先创建一个应用程序。字段级元数据允许用户将别名、描述和分类应用于字段;这些功能有助于识别特定数据和敏感字段。

信息注释Qlik Cloud 在一个数据集中仅分析最多 1200 万行。如果数据集超过 1200 万行,则仅对前 1200 万行进行分析。仍然会添加所有字段的元数据,而不考虑所分析的行数。

管理字段级元数据

您可以从字段选项卡访问和编辑数据集中每个字段的元数据。从 为平铺视图选择平铺图标 Tile 视图中选择任意卡,以及 选择列表视图的列表图标 List 视图中的任意行或 数据视图中的任何列,以打开网格右侧该字段的详细信息面板。字段级元数据字段(字段别名描述标记分类)是可选的,可以从此面板中定义和编辑。

字段元数据字段
详细信息 描述
字段别名 输入可选的替代名称,以使字段名称在概要文件分析中更有意义。别名字段名称仅显示在配置文件分析中,不会影响技术列名。
描述

输入任何可能有助于用户查看字段元数据和分析字段的信息。

标记 输入文本片段以定义和分类此字段及其数据。
分类 选中个人信息敏感信息复选框。
信息注释选定的字段级分类个人信息敏感信息显示在技术数据集元数据下面按字段列出的数据集概览选项卡中。
信息注释应用于具有多个工作表的 Excel 文件中的字段的分类将与工作表名称和字段名称一起列出(例如:个人信息: Sheet1/EmpID)。

具有多个工作表的 XLSX 文件的字段级元数据

在平铺视图中选择字段卡以打开“详细信息”面板

分析数据

分析统计信息提供列分析,用于度量数据集中存在的发生率、范围和值。这些指标描述字段值之间的关系,例如以下字段值:

  • 相异值的计数(基数
  • 样本值、最常见值以及值频率
  • 可用于识别默认或潜在重复值的冗余
  • 空值、字符串和数值的计数
  • 有关值范围的信息,包括最小值、最大值、平均值、总和及标准偏差

目录提供了三种字段分析数据视图:Tile viewList viewData view

Tile view 是一种基于卡片的可视化表示,以网格形式显示字段。

List view 是可配置概要统计信息的表格摘要。

Table view 列出字段列名和数据集的前 20 条记录。

选择 Tile为平铺视图选择平铺图标List选择列表视图的列表图标数据 图标以在配置文件视图之间切换。

分析平铺视图

分析平铺视图是一种可视字段分析,用于显示该类型字段的信息量最大的内容。显示的默认视图卡类型由该字段的数值或文本值的数目是否更大来确定。例如,对于同时具有文本值和数字值的字段,如果字段中文本值较多,则默认情况下会显示最常用值卡类型;如果字段中的数字值较多,则会显示分级频率数字分发卡类型。提供了一个下拉切换,以便在选中 最常见值图标 时您可以对有非唯一值的任何字段至切换到最常见的值卡类型;或者,如果选中分级频率 分级频率图标,您可以切换回数字分布卡。请注意,如果字段有空值,则所有卡类型都包含空值的数目。

平铺视图:字段按对该字段中包含的数据类型有意义的指标进行分析(例如:文本与数值)

数据集的配置文件磁贴视图

样本值

当所有值都是唯一的且仅为文本时,将显示样本值卡。它将列出(最多)前三个值以及其他唯一值的总数。

磁贴视图卡:样本值
样品值磁贴

样本值分析标准:当基数较高(所有不同的值)时,使用此卡分析字段值。在每个值都是基于文本且唯一的情况下,一些示例值提供了该类型字段数据的最佳初始视图。

每个示例值分析卡提供: 

  • 字段名称
  • 基数(相异值)
  • 最多三个采样值(字段的值可能少于三个)

Most common values frequency(最常见值频率)

最常见值频率卡显示了五个最常见值及其频率。如果有五个以上的相异值,这些值将合并并显示为其他。如果任何字段缺少值,则总计显示为空值。此分析卡可应用于文本、数字或混合数据值。

磁贴视图卡:Most common values frequency(最常见值频率)
最常见值频率

Most common values frequency(最常见值频率)标准:值很少或值分布不均的字段将根据最常见值频率卡进行分析。仅当存在多个相同值的实例时,才会应用此分析。用户可以快速了解字段值的分布。如果字段数据同时包含文本和数值,并且文本多于数值,则显示 Most common values frequency(最常见值频率)卡。当字段中有三个以上数值时,提供了 Binned frequency(分级频率)切换。

每个 Most common values frequency(最常见值频率)分析卡提供: 

  • 字段名称
  • 基数(相异值)
  • 最常见值及其频率
  • 其他剩余值的组合频率

Binned frequency(分级频率)

Binned frequency(分级频率)卡显示与数字字段相关的分布和分析信息;包括最小、平均和最大数据值。如果字段数据同时包含文本和数值,并且数值多于文本,则显示 Binned frequency(分级频率)卡。Most Common Values Frequency(最常见值频率)卡类型可用于所有具有非唯一值的字段。

磁贴视图卡:分级频率数值分布

分级频率磁贴

每个 Binned frequency(分级频率)分析卡提供: 

  • 字段名称
  • 基数(相异值)
  • 显示数字数据分布的直方图
  • 最小值
  • 平均值(数字之和除以数据集中的值总数)
  • 最大值

分析列表视图

分析列表视图提供具有分析统计选项的表格。用户在 ColumnPicker 列图标 下方检查对数据集最有意义的感兴趣的度量,这可以通过滚动到表的最右边缘找到。默认预选前九项统计。

列表视图:通过在表格上向右滚动,从 ColumnPicker 下拉列表中选择感兴趣的配置文件统计信息

数据集的配置文件列表视图

配置文件数据视图

配置文件数据视图将数据集显示为带有字段列名和(最多)前 20 个值的直接数据表。

数据视图:显示数据集列名和前 20 条记录

数据集的配置文件数据视图

权限

需要权限才能对数据进行分析和采样。您必须在数据集的空间中具有允许您对数据源进行分析的角色。有关详细信息,请参阅管理共享空间中的权限管理托管空间中的权限

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!