跳到主要內容 跳至補充內容

資料品質和資料探索

開啟資料集後,您可以看見幾個概述部分,以進一步瞭解整體品質、結構描述、品質統計資料和每欄的語意類型。

資料集的品質指標

開啟剛註冊的資料集概述時,大部分的資訊會變成灰色。若首次計算資料品質,按一下運算按鈕。若之前曾經運算品質,但您想確認資料為最新狀態,按一下重新整理按鈕。

每次運算或下推重新整理將會花費 Snowflake 點數。如需詳細資訊,請參閱Data quality for connection-based datasets

有兩個顯示品質的主要區段。

  • 資料品質區域,包括:

    • 整個資料集有效、無效和空值的重新分割,採用三種顏色品質列的形式,及其各自的百分比。

    • 有效性分數,表達有效值的百分比,而不考慮空值。

    • 完整性分數,表示不是空值的百分比。

    • 新鮮度時間,表示資料來源的最後更新時間。如需詳細資訊,請參閱資料有效

  • 結構描述區域,顯示不同的資料集欄位,其中已套用資料類型或語意類型,以及每個資料集欄位的品質列。

提示備註對於基於連線的資料集,若無法擷取資料集的結構描述和品質,請確認您在 Qlik 分析服務中心內設定的連線是否正確填寫了角色欄位,或者本身是否對資料庫表格授予必要權限。

語意類型探索

會向資料集的每個欄位自動指派語意類型,以便進一步描述其內容。在幕後,會進行資料探索操作,以決定要指派哪個類型。

資料探索計算欄中有多少值符合每個語意類型,以及若結果大於 40%,會向欄指派語意類型。

如何計算百分比?

此百分比是兩個百分比的總和:

  • 一個百分比呈現符合語意類型之值的數量;最高可分配 100%。為了決定值是否符合語意類型,資料探索取決於語意類型的類型:

    • 字典:值是否符合字典中的值?會忽略標點符號、大小寫、空格和重音符號。

    • 規則運算式:值是否符合規則運算式?

    • 複合:值是否可以深入探索到至少一個子項目?

      複合類型是現有語意類型的群組,稱為子項目。

    若答案是正面,會將該值視為有效。

  • 其他百分比代表欄名稱和語意類型名稱之間的相似性;最高可分配 10%。

    若要比較名稱:

    • 會使用萊文斯坦演算法。這會計算將某個字串轉換為另一個字串所需的最低編輯 (插入、刪除或替代) 數量。

    • 會忽略大小寫和重音符號。

    • 若字串包含空格,則會忽略文字順序。例如,US Phone 和 Phone US 被視為相同。

    最大百分比為 100%。若所有值都符合語意類型,且欄名稱與語意類型名稱相同,結果仍為 100%。

資料類型探索

如果不是語意類型,也可以指派原生資料類型。若沒有任何語意類型超過 40%,資料探索會自動指派資料類型。

為了決定哪個類型是值,資料探索會按照以下順序:

  1. 值是空的嗎?

  2. 值是布林類型嗎?truefalse 是唯一視為布林類型的值。

  3. 值是整數類型嗎?

  4. 值是小數類型嗎?

  5. 值是日期類型嗎?

  6. 若值不是上述類型之一,會視為文字值。

由於驗證是增量,值只會是一種類型。例如,值 5 是整數類型。這不會視為文字類型。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!