跳到主要内容

分析数据

在该页面上

分析数据

分析统计信息提供列分析,用于度量数据集中存在的发生率、范围和值。这些指标描述字段值之间的关系,例如以下字段值:

  • 相异值的计数(基数)
  • 样本值、最常见值以及值频率
  • 可用于识别默认或潜在重复值的冗余
  • 空值、字符串和数值的计数
  • 有关值范围的信息,包括最小值、最大值、平均值、总和及标准偏差

数据管理员通过分析访问有关其数据集的丰富技术信息。这些信息有助于组织和分配资源和访问。应用程序开发人员使用分析统计信息和数据采样,以获得创建应用程序和计划可视化的思路和方向。字段分析可以帮助数据分析师和业务用户更快地获得见解。他们可以查看和可视化有价值的字段分析指标,而无需先创建一个应用程序。

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

平铺视图:字段按对该字段中包含的数据类型有意义的指标进行分析(例如:文本与数值)

分析平铺视图

列表视图:从下拉列表中选择感兴趣的分析统计信息

分析列表视图

分析平铺视图

分析平铺视图是一种可视字段分析,用于显示该类型字段的信息量最大的内容。显示的默认视图卡类型由该字段的数值或文本值的数目是否更大来确定。例如,对于同时具有文本值和数字值的字段,如果字段中文本值较多,则默认情况下会显示最常用值卡类型;如果字段中的数字值较多,则会显示分级频率数字分发卡类型。提供了一个下拉切换,以便在选中 A 时您可以对有非唯一值的任何字段至切换到最常见的值频率卡类型;或者,如果选中 #1,您可以切换回数字分布卡。请注意,如果字段有空值,则所有卡类型都包含空值的数目。

平铺视图卡:Binned Frequency(分级频率)数值分布、样本值以及 Most Common Values Frequency(最常见值频率)

平铺视图分析卡

样本值

当所有值都是唯一的且仅为文本时,将显示样本值卡。它将列出(最多)前三个值。

样本值分析卡
分析卡样本值

样本值分析标准:当基数较高(所有不同的值)时,使用此卡分析字段值。在每个值都是基于文本且唯一的情况下,一些示例值提供了该类型字段数据的最佳初始视图。

每个示例值分析卡提供: 

  • 字段名称
  • 基数性
  • 最多三个采样值(字段的值可能少于三个)

Most common values frequency(最常见值频率)

Most common values frequency(最常见值频率)卡显示最常见的两个值以及这些值和所有其他值的频率组合为其他;除非只有三个值,在这种情况下,所有三个值都以每个值的频率显示。此分析卡可应用于文本、数字或混合数据值。

带文本值的 Most common values frequency(最常见值频率)分析卡
最常见值频率分析卡
带数值的 Most common values frequency(最常见值频率)分析卡
最常见值分析卡

Most common values frequency(最常见值频率)标准:值很少或值分布不均的字段将根据最常见值频率卡进行分析。仅当存在多个相同值的实例时,才会应用此分析。用户可以快速了解字段值的分布。如果字段数据同时包含文本和数值,并且文本多于数值,则显示 Most common values frequency(最常见值频率)卡。当字段中有三个以上数值时,提供了 Binned frequency(分级频率)切换。

每个 Most common values frequency(最常见值频率)分析卡提供: 

  • 字段名称
  • 基数性
  • 最常见值及其频率
  • 其他剩余值的组合频率

Binned frequency(分级频率)

Binned frequency(分级频率)卡显示与数字字段相关的分布和分析信息;包括最小、平均和最大数据值。如果字段数据同时包含文本和数值,并且数值多于文本,则显示 Binned frequency(分级频率)卡。Most Common Values Frequency(最常见值频率)卡类型可用于所有具有非唯一值的字段。

Binned frequency(分级频率)分析卡

分级频率分析卡

每个 Binned frequency(分级频率)分析卡提供: 

  • 字段名称
  • 基数性
  • 显示数字数据分布的直方图
  • 最小值
  • 平均值(数字之和除以数据集中的值总数)
  • 最大值

分析列表视图

分析列表视图提供具有分析统计选项的表格。用户检查对 Columns 下正在分析的数据集最有意义的感兴趣的度量。默认预选前九项统计。

从中心主页选项卡,导航到您的数据;或从目录中筛选类型数据

  1. 选择打开数据集,然后选择分析数据。此操作将打开数据集的分析页。选择按钮,并在感兴趣的分析统计旁边放置一个复选标记。必须选择这些统计信息(旁边的复选标记),以便它们分析字段(列)并显示在表中。以下列表详细说明了可用的分析统计信息。

    分析统计信息
    统计信息 描述
    名称 字段名称(例如:CategoryID
    数据类型

    Qlik Sense 注册来自许多不同系统的数据,为便于提供信息,对字段(列)数据施加外部到内部的统一数据类型映射。支持的数据类型值包括:

    • 日期:包含月、日、年的日期,ISO 8601 格式为 YYYY-MM-DD

    • 时间:包含小时、分钟、秒的时间值,采用 hh.mm.ss.sss±hh:mm 的 ISO 8601 格式
    • Datetime:包含年、月、日、时、分、秒和分数的日期时间值,格式为 YYYY-MM-DDThh.MM.ss.sss
    • 时间戳:包含年、月、日、小时、分钟、秒、分数和时区的时间戳值,采用 YYYY-MM-DDThh.mm.ss.sssZ 的格式
    • 字符串:表示文本的字符数据
    • 双精度:具有双精度 64 位 IEEE 754 浮点的数值数据类型。
    • Decimal:由精度(总位数)和小数位数(小数点右边的位数)定义的精确数字数据类型
    • 整数:正整数或负整数
    • 布尔值:布尔值 (TRUE/FALSE)
    • 二进制:可以刚好取两个可能值的分类数据,例如“1”和“2”
    • 自定义:映射的系统已知类型之外的类型
    相异值 基数,此字段存在的相异值的数目
    样本值 采样值(显示 3 个样本值)
    总和 此字段中所有值的总和(字符串字段显示“0”)
    最小值 此字段的最小观察值(数字字段)
    最大值 此字段的最大观察值(数字字段)
    平均值 此字段的平均观测值
    系统标签 用于标识代码集的文件标记(例如 $ascii,$text)
    标准差 数字字段标准偏差
    正值数目
    负值数目
    零值 "0" 值数目
    空字符串 空字符串数
    最小长度 观察到的最小字符长度
    平均长度 平均观察字符长度
    最大长度 观察到的最大字符长度
    首个存储值 排序权重的第一个(最小)值(字符串字段)
    最后存储值 排序权重的最后(最高)值(字符串字段)
    数值 数值数目
    文本值 文本值数目
    最常用值 字段中最常见的三个值

采样数据

数据样本是总体数据集的子集。它是数据管理员确保数据符合预期模式和格式的有用工具。应用程序创建者可以在其他记录和数据集的上下文中感知字段和字段数据。这些视图提供了数据的概览;开发人员可以开始探索数据进行分析并发现潜在的相关性。

选择数据样本可查看每个字段前20个数据值的示例

数据集引擎示例
  • 选择 下拉箭头图标 按钮,然后选择样本以查看每个字段的数据值示例 (n=20)。

权限

需要权限才能对数据进行分析和采样。分析数据的操作映射到更广泛的权限分析数据源。有关更多信息,请参阅管理共享空间中的权限管理受管空间中的权限

  • 分析数据 > 分析数据源

示例