跳到主要內容

剖析資料

剖析統計資料提供欄分析,可測量資料集內發生的發生率、範圍和值。這些指標描述欄位值之間的關係,例如:

  • 相異值計數 (基數)
  • 樣本值、最常用的值和值頻率
  • 識別預設或潛在重複值時實用的冗餘
  • Null、字串和數值的計數
  • 關於值範圍的資訊,包括最小值、最大值、平均值、總和與標準差

資料管理員透過剖析存取關於資料集的豐富技術資訊。此資訊有助於組織並指派資源和存取權限。應用程式開發人員使用剖析統計資料和資料取樣來取得建立應用程式和規畫視覺化的想法和方向。欄位剖析可協助資料分析師和商業使用者更快獲得深入資訊。他們可以檢視和視覺化欄位剖析指標,不需要先建立應用程式。

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

圖格檢視: 透過對該欄位中包含的資料類型有意義的指標來剖析欄位 (例如:文字與數值)

Profile tile view

清單檢視: 從下拉式清單選取感興趣的剖析統計資料

Profile list view

剖析圖格檢視

剖析圖格檢視是一種視覺欄位剖析,其設計用來顯示該欄位類型的大部分資訊內容。依據該欄位中數值或文字值的數量哪個較高,來判定顯示的預設檢視卡片類型。例如,對於具有文字和數值的欄位,若文字值較多,依照預設會顯示 Most Common Values (最常用的值) 卡片類型,若欄位中的數值較多,則會顯示 Binned Frequency (分級頻率) 數字分佈卡片類型。會提供下拉式切換,讓您可以在選取 A 時為具有非唯一值的任何欄位切換至 Most Common Values Frequency (最常用的值頻率) 卡片類型;或者若選取 #1,您可以切換回數字分佈卡片。請注意,若欄位具有 Null 值,則所有卡片類型都包括 Null 值的數量。

圖格檢視卡片: Binned Frequency (分級頻率) 數字分佈、樣本值Most Common Values Frequency (最常用的值頻率)

Tile view profile cards

樣本值卡片

若所有值為唯一且只有文字,就會顯示樣本值卡片。這 (最多) 將會列出前三個值。

樣本值剖析卡片

Profile card sample values

樣本值剖析準則:若基數很高 (所有相異值),則透過此卡片剖析欄位值。若每個值都基於文字而且是唯一值,則幾個樣本值可對此類型的欄位資料提供最佳初始檢視。

每個樣本值剖析卡片提供: 

  • 欄位名稱
  • 基數
  • 最多三個樣本值 (欄位的值可能少於三個)

Most common values frequency (最常用的值頻率) 卡片

Most common values frequency (最常用的值頻率) 卡片顯示最常用的兩個值和這些值的頻率以及組成其他的所有其他值的頻率;除非只有三個值,在此情況下,會顯示全部三個值及每個值的頻率。此剖析卡片可套用於文字、數字或混合資料值。

Most common values frequency (最常用的值頻率) 剖析卡片與文字值
Profile card most common values frequency
Most common values frequency (最常用的值頻率) 剖析卡片與數值
Profile card most common values

Most common values frequency (最常用的值頻率) 準則:會根據最常用的值頻率卡片剖析具有少量值或值偏斜分佈的欄位。只有在相同的值有多個執行個體時,才會套用此剖析。使用者可以對欄位值的分佈情況獲得快速的深入資訊。若欄位資料包括文字和數值,而且文字多於數值,則會顯示 Most common values frequency (最常用的值頻率) 卡片。若欄位中的數值超過三個,會提供 Binned frequency (分級頻率) 切換。

每個 Most common values frequency (最常用的值頻率) 剖析卡片提供: 

  • 欄位名稱
  • 基數
  • 最常用的值及其頻率
  • 其他組成剩餘值的頻率

Binned frequency (分級頻率) 卡片

Binned frequency (分級頻率) 卡片顯示對數字欄位相關的分佈和剖析資訊;包括最小、平均和最大資料值。若欄位資料包括文字和數值,而且數值多於文字值,則會顯示 Binned frequency (分級頻率) 卡片。Most Common Values Frequency (最常用的值頻率) 卡片類型可用於具有非唯一值的所有欄位。

Binned frequency (分級頻率) 剖析卡片
Profile card binned frequency

每個 Binned frequency (分級頻率) 剖析卡片提供: 

  • 欄位名稱
  • 基數
  • 顯示數字資料分佈的長條圖
  • 最小值
  • 平均值 (數字總和除以資料集中值的總數)
  • 最大值

剖析清單檢視

剖析清單檢視提供含有剖析統計資料選項的表格。使用者檢查感興趣而且對 Columns 之下剖析的資枓集最有意義的指標。依照預設會預先選取前九個統計資料。

從中心首頁索引標籤,前往您的資料;或從目錄篩選類型: 資料

  1. 選取開啟資料集,然後選取剖析資料。此動作將會開啟資料集的剖析頁面。選取按鈕並將核取記號置於感興趣的剖析統計資料旁。必須按順序選取這些統計資料 (旁邊的核取記號),以剖析欄位 (欄) 並顯示在表格中。下列清單詳細列出可用的剖析統計資料。

    剖析統計資料
    統計資料 描述
    名稱 欄位名稱 (範例:CategoryID)
    資料類型

    Qlik Sense 註冊來自許多不同系統的資料,會為了資訊用途,對欄位 (欄) 資料強制進行外部至內部統一資料類型對應。支援的資料類型值包括:

    • Date:日期包含月、日、年,格式為 ISO 8601 的 YYYY-MM-DD

    • 時間:時間值包含小時、分鐘、秒鐘,格式為 ISO 8601 的 hh.mm.ss.sss±hh:mm
    • 日期時間: 日期時間值包含年、月、日、小時、分鐘、秒鐘和小數,格式為 YYYY-MM-DDThh.mm.ss.sss
    • 時間戳記: 時間戳記值包含年、月、日、小時、分鐘、秒鐘、小數和時區,格式為 YYYY-MM-DDThh.mm.ss.sssZ
    • 字串: 呈現文字的字元資料
    • 雙重:具有雙精確度 64 位元 IEEE 754 浮點的數值資料類型
    • 小數:確切數值資料類型,由精確度 (總位數) 和比例 (小數點右邊的位數) 來定義
    • 整數:正整數或負整數
    • 布林值:布林值 (TRUE/FALSE)
    • 二進位:可以確切採用兩個可能值的類別資料,例如「1」和「2」
    • Custom:對應的系統已知類型之外的類型
    相異值 基數,存在於此欄位的相異值數量
    樣本值 樣本值 (顯示 3 個樣本值)
    Sum 此欄位中所有值的總和 (對於字串欄位顯示「0」)
    最小值 對此欄位 (數值欄位) 觀察到的最小值
    最大值 對此欄位 (數值欄位) 觀察到的最大值
    平均值 對此欄位觀察到的平均值
    系統標記 套用的檔案標記,用來識別代碼集 (例如 $ascii, $text)
    標準差 數值欄位的標準差
    正值 正值的數量
    負值 負值的數量
    零值 「0」值的數量
    空的字串 空的字串數量
    最小長度 觀察到的最低字元長度
    平均長度 觀察到的平均字元長度
    最大長度 觀察到的最高字元長度
    第一個排序的值 排序權重 (字串欄位) 的第一個 (最低) 值
    最後一個排序的值 排序權重 (字串欄位) 的最後一個 (最高) 值
    數值 數值的數量
    文字值 文字值的數量
    最常用的值 欄位中三個最常用的值

取樣資料

資料樣本是母體資料集的子集。若資料管理員要確保資料符合預期模式和格式,這是很實用的工具。應用程式建立者可以理解其他記錄和資料集背景下的欄位和欄位資料。這些觀點提供對於資料的初步看法;開發人員可以開始探索資料,以進行分析和潛在關聯。

選取資料樣本以檢視每個欄位前 20 個資料值的樣本

Dataset engine sample

  • 選取 icon dropdown arrow 按鈕,然後選取樣本以檢視每個欄位的資料值樣本 (n=20)。

權限

需要權限才能剖析和取樣資料。剖析資料的動作對應至更廣的剖析資料來源權限。如需詳細資訊,請參閱在共用空間中管理權限在受管理空間中管理權限

  • 剖析資料 > 剖析資料來源

範例