類別編碼
大部分的機器學習演算法要求變數是數字。因為類別值與該相同欄的其他值之間沒有可清楚衡量的關係,所以這必須先轉換為數字呈現,才能以數學方式來衡量。AutoML 使用類別編碼將特徵欄中的類別值轉換為機器學習演算法可以理解的數值。
AutoML 使用兩種編碼方法:impact encoding 和 one-hot encoding。用於特定特徵的方法取決於資料集大小和唯一類別值的數量。
-
對於具有 100 欄或更少欄的資料集:
-
具有 13 個或更少唯一值的類別特徵是 one-hot encoded。
-
具有超過 13 個唯一值的類別特徵是 impact encoded。
-
-
對於具有超過 100 欄的資料集,所有類別欄都是 impact encoded。
您可以在設定 ML 實驗時查詢結構描述檢視,以查看目前使用類別編碼處理資料集中的哪些特徵。如需詳細資訊,請參閱設定實驗。
類別編碼如何運作
向類別提供數學呈現的常見技術是 one-hot encoding。One-hot encoding 將類別欄樞紐到 n 個欄中,其中 n 等於欄中唯一值的數量。會將數字 1 指派到每列適當的欄,並將 0 指派到其他為該類別產生的欄。類別編碼可以彼此獨立地評估每個唯一變數,不同於相對於欄中其他值所評估的數值。
表格中的範例顯示類別欄 MarketingSource 如何進行 one-hot encoded。結果是四個新的欄:每欄適用於每個唯一行銷來源。在第一列,Person_1 具有行銷來源「Facebook」。這在新的 Facebook 欄中以 1 呈現,而在其他欄中以 0 呈現。