特徵縮放
特徵是資料集中的欄,可用來預測目標值。特徵的資料值通常有不同的範圍。特徵縮放可標準化數字欄中的值範圍,以平均分佈值。這可以關聯以其他方式無法關聯的值。
假設我們嘗試預測屋主是否會拖欠房貸。在此案例中,利率和房屋價值有非常不同的範圍和重要性。標準化其中每個彼此相對的值可沿著相同平面以數學方式呈現。這可以增加模型訓練的準確度和速度。
特徵縮放如何運作
特徵縮放的常見做法是計算每欄的平均值和標準差。然後,對於每列,計算離開平均值的標準差數量。
為了說明此概念和做法,我們有含 InitialOrderValue 和 DaysToConvert 欄的表格。
具有原始資料的表格。兩個欄的範圍之間有很大的差異。

會為欄計算平均值和標準差。我們可以使用這些值對原始值進行特徵縮放。特徵縮放值是原始值和除以標準差的平均值之間的差異。
平圴值和標準差

對於表格 Person_1 中的第一個記錄,初始訂單值是 $45.37。初始訂單值的平圴值是 $32.81,而標準差是 $13.58。這提供特徵縮放值:($45.37 - $32.81)/$13.58 = 0.925
請注意,單位 ($) 已經由除法取消。這表示,0.925 不再以美元衡量,而是來自平均值的相對標準差。將此套用至兩個欄時,現在位於相同的描述性平面。下表顯示特徵縮放值。
具有特徵縮放資料的表格

原始值和特徵縮放值之間的差異以下面的盒狀圖進行視覺化。
原始資料的盒狀圖

特徵縮放資料的盒狀圖
