自動資料準備和轉換
會自動前置處理您為實驗選取的資料集,以準備進行模型訓練。前置處理步驟包括資料準備和轉換。這會提升資料品質,以提供產生準確結果的模型。
有各種資料科學技術用來前置處理資料。依照預設,會執行大部分的步驟,在許多使用案例下都運作良好。瞭解這些預設步驟的內容以及基礎概念,可協助您先理解需要什麼來針對您的特定使用情況處理資料,再用來訓練模型。
實驗設定
在前置處理開始之前,AutoML 會執行數個準備步驟並提供如何處理資料的預覽。下列步驟適用:
-
將資料集中的欄分類為具有類別、數字、日期或自由文字特徵類型。
-
浮動、雙重和十進位資料類型一律視為數字。
-
具有字串資料類型且包含平均少於 50 個字元的欄,會分類為類別。
-
具有字串資料類型且包含平均 50 個或更多字元的欄,會分類為自由文字。不過,在此階段,不保證這些欄可作為自由文字特徵使用。會在前置處理期間檢查其他要求。請參閱 前置處理步驟。
-
整數資料類型一律視為數字。
-
日期和時間戳記資料類型一律視為具有日期特徵類型。在實驗設定期間,AutoML 會預覽可能從父日期特徵衍生的自動設計特徵。
-
-
檢查每欄以了解稀疏性、常數和高基數。如有下列情況,則排除該欄:
-
欄的 50% 以上是 Null。為特徵刪除包含 Null 值的記錄可能會導致浪費掉實用的訓練範例。或者,雖然插補值可以儲存範例,但記錄只會變成現實的近似內容。因此,排除 Null 值數量很高 (超過 50%) 的特徵通常會比較好。請注意,0 絕對不應視為 Null。
-
欄在每一列都有相同的值 (常數)。換言之,即欄具有低基數。只有單一值的特徵沒有任何預測價值。
-
欄是類別且有 90% 或更多唯一值 (高基數)。太多唯一值會讓模型很難在訓練資集以外進行一般化。
-
必須根據前置處理開始後資料的處理方式進行調整。
前置處理步驟
選取目標欄後,會識別並分隔目標值是 Null 的列,留下目標已知作為訓練集的列。只有來自訓練資料集的資料用於在下列步驟中做出決策。步驟連同中繼資料將會儲存並套用至模型的任何新資料,以對此進行預測。
只要您執行新的實驗版本,就會對包含的特徵執行前置處理。
-
為數值計算並儲存平均值,並為類別值計算並儲存模式。
-
插補遺漏值。如需詳細資訊,請參閱 Null 插補。
-
編碼類別變數。
-
從資料集中的現有欄產生新的特徵。這些新的自動設計特徵可以改善您建立之模型的效能和預測性功能。
會對識別為可能的自由文字的欄檢查平均字詞長度。若欄有大於五個字詞的平均字詞長度,可以使用自動特徵設計編碼為自由文字特徵。若否,就會顯示警告。若無法作為自由文字使用,則如果有高基數,應取消選取特徵。
-
為每欄計算並儲存摘要統計資料以用於特徵縮放。
-
透過特徵縮放標準化每欄。
-
使用訓練資料的自動鑑效組和五重交叉驗證。如需詳細資訊,請參閱 鑑效組資料和交叉驗證。