檢視關於您訓練資料的深入剖析
當您新增訓練資料並執行訓練版本時,您可以存取關於如何處理資料的深入剖析。深入剖析提供關於您實驗中目標和特性的資訊,例如已捨棄、無法使用或將透過特殊處理進行編碼的特性。
當您處於組態/訓練資料索引標籤時,可在 結構描述檢視中找到深入剖析欄。簡短的深入剖析也可在
資料檢視中取得。深入剖析是針對實驗中訓練的每個模型個別建立的。
結構描述檢視中的深入剖析欄
會產生深入剖析:
-
在您新增或變更訓練資料之後,但尚未執行任何實驗版本。
-
在每個實驗版本執行之後。會針對訓練的每個模型建立一組個別的深入剖析。
在執行版本之前和之後,深入剖析可能會有所不同。這是原因在訓練開始時,Qlik Predict 能夠預處理您的資料並進一步診斷資料的問題。如需詳細資訊,請參閱 自動資料準備和轉換。
在訓練前檢視深入剖析
在您執行實驗版本之前,您可以分析深入剖析以查看如何解讀目前的訓練資料。這些深入剖析可能會在您執行版本後發生變更。
請執行下列動作:
-
在實驗中,請確定您已新增想要用於該實驗版本的訓練資料。
-
開啟組態/訓練資料索引標籤。
-
確定您處於
結構描述檢視中。
-
分析深入剖析欄。工具提示提供深入剖析背後的額外內容。如需每個深入剖析代表意義的進一步說明,請參閱 解讀資料集深入剖析。
檢視模型的深入剖析
在實驗版本的模型完成訓練後,選取模型並檢查資料的處理方式。
請執行下列動作:
-
執行實驗版本,然後開啟組態/訓練資料索引標籤。
-
從工具列中的下拉式清單選取模型。
-
確定您處於
結構描述檢視中。
-
分析深入剖析欄。工具提示提供深入剖析背後的額外內容。如需每個深入剖析代表意義的進一步說明,請參閱 解讀資料集深入剖析。
解讀資料集深入剖析
以下表格提供關於可能在結構描述中顯示之深入剖析的更多詳細資訊。
一般深入剖析
| 深入剖析 | 意義 | 對組態的影響 | 何時判定深入剖析 | 額外參考資料 |
|---|---|---|---|---|
| Constant | 該欄的所有列都具有相同的值。 | 該欄無法用作目標或包含的特性。 | 執行版本之前和之後 | 基數 |
| One-hot encoded | 特性類型為類別,且該欄具有少於 14 個唯一值。 | 對組態沒有影響。 | 執行版本之前和之後 | 類別編碼 |
| Impact encoded | 特性類型為類別,且該欄具有 14 個或更多唯一值。 | 對組態沒有影響。 | 執行版本之前和之後 | 類別編碼 |
| High cardinality | 該欄具有太多唯一值,如果用作特性,可能會對模型效能產生負面影響。 | 該欄無法用作目標。它將自動作為特性排除,但如果需要,仍可包含。 | 執行版本之前和之後 | 基數 |
| Sparse data | 該欄具有太多 Null 值。 | 該欄無法用作目標或包含的特性。 | 執行版本之前和之後 | Null 插補 |
| Underrepresented class | 該欄具有少於 10 列的類別。 | 該欄無法用作目標,但可以作為特性包含。 | 執行版本之前和之後 | - |
| Feature transform failed | 特性的特性類型已手動從其預設類型變更。使用此組態時發生錯誤。 | 使用此特性轉換,實驗版本無法成功執行。將特性的特性類型還原為其先前的值,或從訓練中排除該特性。 | 執行版本之後 | 變更特性類型 |
自動特性工程深入剖析
| 深入剖析 | 意義 | 對組態的影響 | 何時判定深入剖析 | 額外參考資料 |
|---|---|---|---|---|
| <number of> auto-engineered features | 該欄是可用於產生自動工程特性的父特性。 | 如果此父特性被解讀為日期特性,它會自動從組態中移除。建議您改為使用可從中產生的自動工程日期特性。可以覆寫此設定並包含該特性,而不是自動工程特性。 | 執行版本之前和之後 | 自動特徵設計 |
| Auto-engineered feature | 該欄是自動工程特性,可以或已經從父日期特性產生。它未出現在原始資料集中。 | 您可以在實驗訓練期間移除其中一個或多個自動工程特性。如果您將父特性的特性類型切換為類別,則會移除所有自動工程特性。 | 執行版本之前 and 之後 | 自動特徵設計 |
| Could not process as date | 該欄可能包含日期和時間資訊,但無法用於建立自動工程日期特性。 | 該特性已從組態中捨棄。如果先前已從此父特性產生自動工程特性,則會從未來的實驗版本中移除。您仍可在實驗中使用該特性,但必須將其特性類型切換為類別。 | 執行版本之後 | 自動特徵設計 |
| Possible free text | 該欄可能可用作自由文字特性。 | 自由文字特性類型已指派給該欄。您必須執行實驗版本以確認該特性是否可以處理為自由文字。 | 執行版本之前 | 自動特徵設計 |
| Free text | 已確認該欄包含自由文字。它可以處理為自由文字。 | 該特性不需要額外的組態。 | 執行版本之後 | 自動特徵設計 |
| Could not process as free text | 經過進一步分析,該欄無法處理為自由文字。 | 您需要從下一個實驗版本的組態中取消選取該特性。如果該特性不具有高基數,您也可以選擇將特性類型變更為類別。 | 執行版本之後 | 自動特徵設計 |
智慧型模型最佳化深入剖析
| 深入剖析 | 意義 | 對組態的影響 | 何時判定深入剖析 | 額外參考資料 |
|---|---|---|---|---|
| Target leakage | 該特性疑似受到目標洩漏的影響。如果是這樣,它會包含關於您嘗試預測之目標欄的資訊。具有目標洩漏的特性可能會讓您對模型效能產生錯誤的安全感。在實際預測中,它們會導致模型表現非常差。 | 該特性尚未用於訓練模型。 | 執行版本之後 | 資料滲漏 |
| Low permutation importance | 該特性對模型預測幾乎沒有影響 (如果有的話)。移除這些特性可透過減少統計雜訊來提高模型效能。 | 該特性尚未用於訓練模型。 | 執行版本之後 | 理解置換重要性 |
| Highly correlated | 該特性與實驗中的一個或多個其他特性高度關聯。具有彼此高度關聯的特性會降低模型效能。 | 該特性尚未用於訓練模型。與其高度關聯的特性並未因高度關聯而捨棄,但可能因其他原因 (例如低排列重要性) 而捨棄。 | 執行版本之後 | 相互關聯 |
時間序列預測深入剖析
偏差偵測深入剖析
| 深入剖析 | 意義 | 對組態的影響 | 何時判定深入剖析 | 額外參考資料 |
|---|---|---|---|---|
| Data bias detected | 相對於目標欄中的值,某些群組 (值) 與其他群組相比代表性不足。 | 分析偏差偵測結果以確定後續步驟 — 這些步驟可能包括捨棄特性、變更資料集,或使用修改後的架構建立新實驗。 | 執行版本之後 | 偵測機器學習模型中的偏差 |
| Representation bias detected | 在訓練模型如何使用來自特性的資料來建立預測方面,已偵測到偏差。 | 分析偏差偵測結果以確定後續步驟 — 這些步驟可能包括捨棄特性、變更資料集,或使用修改後的架構建立新實驗。 | 執行版本之後 | 偵測機器學習模型中的偏差 |