檢視關於訓練資料的深入資訊
新增訓練資料並執行訓練版本時,您可以存取關於如何處理資料的深入資訊。深入資訊提供關於實驗中目標和特徵的資訊,例如已捨棄、無法使用或將會以特殊處理方式編碼的特徵。
若您位於 結構描述檢視,深入資訊欄可見於資料索引標籤中。縮減的深入資訊也可見於 資料檢視中。會為實驗內訓練的每個模型分別建立深入資訊。
產生深入資訊的時機:
-
新增或變更訓練資料後,但尚未執行任何實驗版本。
-
每個實驗版本執行後。為訓練的每個模型建立一組獨立的深入資訊。
執行版本之前和之後,深入資訊可能會不同。這是因為訓練開始時,AutoML 能夠預先處理資料並透過資料進一步診斷問題。如需詳細資訊,請參閱自動資料準備和轉換。
在訓練之前檢視深入資訊
執行實驗版本之前,您可以分析深入資訊,以查看如何解譯目前的訓練資料。這些深入資訊會在執行版本之後變更。
請執行下列動作:
在實驗中,確認您已新增要用於實驗版本的訓練資料。
開啟資料索引標籤。
確保您處於 結構描述檢視。
分析深入資訊欄。工具提示提供深入資訊背後的其他內容。如需其他關於每個深入資訊意義的說明,請參閱 解譯資料集深入資訊。
檢視模型的深入資訊
模型完成實驗版本的訓練之後,選取模型並檢查如何處理資料。
請執行下列動作:
執行實驗版本,然後開啟資料索引標籤。
從工具列中的下拉式清單選取模型。
確保您處於 結構描述檢視。
分析深入資訊欄。工具提示提供深入資訊背後的其他內容。如需其他關於每個深入資訊意義的說明,請參閱 解譯資料集深入資訊。
解譯資料集深入資訊
下表更詳細地提供顯示在結構描述中的可能深入資訊:
深入資訊 | 意義 | 對設定的影響 | 決定深入資訊時 | 其他參考 |
---|---|---|---|---|
常數 | 欄對所有列有相同的值。 | 欄無法作為目標或包含的特徵使用。 | 執行版本之前和之後 | 基數 |
One-hot encoded | 特徵類型是類別,且欄的唯一值少於 14 個。 | 對設定沒有影響。 | 執行版本之前和之後 | 類別編碼 |
影響已編碼 | 特徵類型是類別,且欄有 14 個或更多唯一值。 | 對設定沒有影響。 | 執行版本之前和之後 | 類別編碼 |
高基數 | 欄有太多唯一值,若作為特徵使用,可能會對模型效能造成負面影響。 | 欄無法作為目標使用。這將會自動排除作為特徵,但如有需要,仍然可以納入。 | 執行版本之前和之後 | 基數 |
疏鬆資料 | 欄有太多 Null 值。 | 欄無法作為目標或包含的特徵使用。 | 執行版本之前和之後 | Null 插補 |
缺乏代表的分類 | 欄有少於 10 列的分類。 | 欄無法作為目標使用,但可以作為特徵納入。 | 執行版本之前和之後 | - |
<number of> 個自動設計的特徵 | 該欄是父特徵,可用來產生自動設計的特徵。 | 若此父特徵解譯為日期特徵,這會從設定中自動移除。建議您改用自動設計且可從中產生的日期特徵。可以覆寫此設定並納入特徵,而非自動設計的特徵。 | 執行版本之前和之後 | 自動特徵設計 |
自動設計的特徵 | 該欄是自動設計的特徵,可以或已經從父日期特徵產生。這不會顯示在原始資料集中。 | 您可以在實驗訓練期間移除其中一個或多個自動設計的特徵。若您將父特徵的特徵類型切換為類別,則會移除所有自動設計的特徵。 | 執行版本之前和之後 | 自動特徵設計 |
無法作為日期來處理 | 欄可能包括日期和時間資訊,但無法用來建立自動設計的日期特徵。 | 會從設定中捨棄該特徵。若先前已從此父特徵產生自動設計的特徵,則會從末來的實驗版本中移除。您仍然可以在實驗中使用該特徵,但您必須將其特徵類型切換為類別。 | 執行版本之後 | 日期特徵設計 |
可能的自由文字 | 該欄可能無法作為自由文字特徵使用。 | 會向該欄指派自由文字特徵類型。您必須執行實驗版本,以確認是否可以將特徵作為自由文字來處理。 | 執行版本之前 | 處理自由文字資料 |
自由文字 | 已確認該欄包含自由文字。可以作為自由文字來處理。 | 不需要對特徵進行其他設定。 | 執行版本之後 | 處理自由文字資料 |
無法作為自由文字來處理 | 進一步分析時,該欄無法作為自由文字來處理。 | 您需要在下一個實驗版本從設定取消選取特徵。若特徵沒有高基數,您可以將特徵類型變更為類別。 | 執行版本之後 | 處理自由文字資料 |
目標外洩 | 懷疑特徵受到目標外洩影響。若如此,這包括關於您嘗試預測之目標欄的資訊。有目標外洩情況的特徵會讓您對模型效能有虛假的安心感。在現實預測中,這會造成模型執行得非常差。 | 特徵未用來訓練模型。 | 執行版本之後 | 資料滲漏 |
低置換重要性 | 特徵對模型預測的影響沒有很大 (如有)。移除這些特徵可降低統計雜訊,藉此改善模型效能。 | 特徵未用來訓練模型。 | 執行版本之後 | 理解置換重要性 |
高度關聯 | 特徵與實驗中的一個或多個其他特徵高度關聯。具有與另一個降低的模型效能高度關聯的特徵。 | 特徵未用來訓練模型。並未由於高度關聯而捨棄有高度關聯的特徵,而可能基於另一個原因捨棄,例如置換重要性低。 | 執行版本之後 | 關聯 |