跳到主要內容 跳至補充內容

自動資料準備和轉換

會自動前置處理您為實驗選取的資料集,以準備進行模型訓練。前置處理步驟包括資料準備和轉換。這會提升資料品質,以提供產生準確結果的模型。

有各種資料科學技術用來前置處理資料。依照預設,會執行大部分的步驟,在許多使用案例下都運作良好。瞭解這些預設步驟的內容以及基礎概念,可協助您先理解需要什麼來針對您的特定使用情況處理資料,再用來訓練模型。

關於前置處理步驟的資訊顯示在實驗設定窗格

AutoML 前置處理區段。

實驗設定

在前置處理開始之前,AutoML 會執行數個準備步驟並提供如何處理資料的預覽。下列步驟適用:

  1. 將資料集中的欄分類為具有類別、數字、日期或自由文字特徵類型。

    • 浮動、雙重和十進位資料類型一律視為數字。

    • 具有字串資料類型且包含平均少於 50 個字元的欄,會分類為類別。

    • 具有字串資料類型且包含平均 50 個或更多字元的欄,會分類為自由文字。不過,在此階段,不保證這些欄可作為自由文字特徵使用。會在前置處理期間檢查其他要求。請參閱 前置處理步驟

    • 整數資料類型一律視為數字。

    • 日期和時間戳記資料類型一律視為具有日期特徵類型。在實驗設定期間,AutoML 會預覽可能從父日期特徵衍生的自動設計特徵。

  2. 檢查每欄以了解稀疏性、常數和高基數。如有下列情況,則排除該欄:

    • 欄的 50% 以上是 Null。為特徵刪除包含 Null 值的記錄可能會導致浪費掉實用的訓練範例。或者,雖然插補值可以儲存範例,但記錄只會變成現實的近似內容。因此,排除 Null 值數量很高 (超過 50%) 的特徵通常會比較好。請注意,0 絕對不應視為 Null。

    • 欄在每一列都有相同的值 (常數)。換言之,即欄具有低基數。只有單一值的特徵沒有任何預測價值。

    • 欄是類別且有 90% 或更多唯一值 (高基數)。太多唯一值會讓模型很難在訓練資集以外進行一般化。

必須根據前置處理開始後資料的處理方式進行調整。

前置處理步驟

選取目標欄後,會識別並分隔目標值是 Null 的列,留下目標已知作為訓練集的列。只有來自訓練資料集的資料用於在下列步驟中做出決策。步驟連同中繼資料將會儲存並套用至模型的任何新資料,以對此進行預測。

只要您執行新的實驗版本,就會對包含的特徵執行前置處理。

  1. 為數值計算並儲存平均值,並為類別值計算並儲存模式。

  2. 插補遺漏值。

  3. 編碼類別變數。

  4. 從資料集中的現有欄產生新的特徵。這些新的自動設計特徵可以改善您建立之模型的效能和預測性功能。

    會對識別為可能的自由文字的欄檢查平均字詞長度。若欄有大於五個字詞的平均字詞長度,可以使用自動特徵設計編碼為自由文字特徵。若否,就會顯示警告。若無法作為自由文字使用,則如果有高基數,應取消選取特徵。

  5. 為每欄計算並儲存摘要統計資料以用於特徵縮放。

  6. 透過特徵縮放標準化每欄。

  7. 使用訓練資料的自動鑑效組和五重交叉驗證。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!