跳到主要內容 跳至補充內容

特徵縮放

特徵是資料集中的欄,可用來預測目標值。特徵的資料值通常有不同的範圍。特徵縮放可標準化數字欄中的值範圍,以平均分佈值。這可以關聯以其他方式無法關聯的值。

假設我們嘗試預測屋主是否會拖欠房貸。在此案例中,利率和房屋價值有非常不同的範圍和重要性。標準化其中每個彼此相對的值可沿著相同平面以數學方式呈現。這可以增加模型訓練的準確度和速度。

特徵縮放如何運作

特徵縮放的常見做法是計算每欄的平均值和標準差。然後,對於每列,計算離開平均值的標準差數量。

為了說明此概念和做法,我們有含 InitialOrderValue 和 DaysToConvert 欄的表格。

具有原始資料的表格。兩個欄的範圍之間有很大的差異。

具有樣本資料的表格。

會為欄計算平均值和標準差。我們可以使用這些值對原始值進行特徵縮放。特徵縮放值是原始值和除以標準差的平均值之間的差異。

平圴值和標準差

表格具有 Initial_order_value 和 Days_to_convert 欄的平均值和標準差。

對於表格 Person_1 中的第一個記錄,初始訂單值是 $45.37。初始訂單值的平圴值是 $32.81,而標準差是 $13.58。這提供特徵縮放值:($45.37 - $32.81)/$13.58 = 0.925

請注意,單位 ($) 已經由除法取消。這表示,0.925 不再以美元衡量,而是來自平均值的相對標準差。將此套用至兩個欄時,現在位於相同的描述性平面。下表顯示特徵縮放值。

具有特徵縮放資料的表格

具有樣本資料的表格。

原始值和特徵縮放值之間的差異以下面的盒狀圖進行視覺化。

原始資料的盒狀圖

盒狀圖。

特徵縮放資料的盒狀圖

盒狀圖。

瞭解更多資訊

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!