特征缩放
特征是数据集中用于预测目标值的列。特征的数据值通常具有不同的范围。特征缩放标准化数值列中的值范围,以均匀分布值。这使得关联其他不可接受的值成为可能。
假设我们正在试图预测房主是否会拖欠抵押贷款。在这种情况下,利率和房屋价值将有非常不同的范围和幅度。将这些值中的每一个相对于它们自身进行标准化,可以沿同一平面对它们进行数学表示。这可以提高模型训练的准确性和速度。
特征缩放是如何工作的
特征缩放的常见做法是计算每列的平均值和标准偏差。然后,对于每一行,计算偏离平均值的标准偏差数。
为了说明这个概念和实践,我们有一个列为 InitialOrderValue 和 DaysToConvert 的表。
计算各列的平均值和标准偏差。我们可以使用这些值对原始值进行特征缩放。特征缩放值是原始值和平均值之间的差值除以标准偏差。
对于表中的第一条记录 Person_1,初始订单值为 $45.37。初始订单价值的平均值为 $32.81,标准偏差为 $13.58。这为我们提供了特征缩放值: ($45.37 - $32.81)/$13.58 = 0.925
请注意,单位 ($) 被除法抵消。这意味着 0.925 不再以美元计量,而是以与平均值的相对标准差计量。当我们将此应用于两列时,它们现在位于同一个描述性平面上。下表显示了特征缩放值。
原始值和特征缩放值之间的差异通过以下方框图可视化。