資料品質和資料探索
開啟資料集後,您可以看見幾個概述部分,以進一步瞭解整體品質、結構描述、品質統計資料和每欄的語意類型。
資料集的品質指標
開啟剛註冊的資料集概述時,大部分的資訊會變成灰色。若首次計算資料品質,按一下運算按鈕。若之前曾經運算品質,但您想確認資料為最新狀態,按一下重新整理按鈕。
每次運算或下推重新整理將會花費 Snowflake 點數。如需詳細資訊,請參閱Data quality for connection-based datasets。
有兩個顯示品質的主要區段。
-
資料品質區域,包括:
-
整個資料集有效、無效和空值的重新分割,採用三種顏色品質列的形式,及其各自的百分比。
-
有效性分數,表達有效值的百分比,而不考慮空值。
-
完整性分數,表示不是空值的百分比。
-
新鮮度時間,表示資料來源的最後更新時間。如需詳細資訊,請參閱資料有效。
-
-
結構描述區域,顯示不同的資料集欄位,其中已套用資料類型或語意類型,以及每個資料集欄位的品質列。
語意類型探索
會向資料集的每個欄位自動指派語意類型,以便進一步描述其內容。在幕後,會進行資料探索操作,以決定要指派哪個類型。
資料探索計算欄中有多少值符合每個語意類型,以及若結果大於 40%,會向欄指派語意類型。
如何計算百分比?
此百分比是兩個百分比的總和:
-
一個百分比呈現符合語意類型之值的數量;最高可分配 100%。為了決定值是否符合語意類型,資料探索取決於語意類型的類型:
-
字典:值是否符合字典中的值?會忽略標點符號、大小寫、空格和重音符號。
-
規則運算式:值是否符合規則運算式?
-
複合:值是否可以深入探索到至少一個子項目?
複合類型是現有語意類型的群組,稱為子項目。
若答案是正面,會將該值視為有效。
-
-
其他百分比代表欄名稱和語意類型名稱之間的相似性;最高可分配 10%。
若要比較名稱:
-
會使用萊文斯坦演算法。這會計算將某個字串轉換為另一個字串所需的最低編輯 (插入、刪除或替代) 數量。
-
會忽略大小寫和重音符號。
-
若字串包含空格,則會忽略文字順序。例如,US Phone 和 Phone US 被視為相同。
最大百分比為 100%。若所有值都符合語意類型,且欄名稱與語意類型名稱相同,結果仍為 100%。
-
資料類型探索
如果不是語意類型,也可以指派原生資料類型。若沒有任何語意類型超過 40%,資料探索會自動指派資料類型。
為了決定哪個類型是值,資料探索會按照以下順序:
-
值是空的嗎?
-
值是布林類型嗎?true 和 false 是唯一視為布林類型的值。
-
值是整數類型嗎?
-
值是小數類型嗎?
-
值是日期類型嗎?
-
若值不是上述類型之一,會視為文字值。
由於驗證是增量,值只會是一種類型。例如,值 5 是整數類型。這不會視為文字類型。