跳到主要内容 跳到补充内容

特征缩放

特征是数据集中用于预测目标值的列。特征的数据值通常具有不同的范围。特征缩放标准化数值列中的值范围,以均匀分布值。这使得关联其他不可接受的值成为可能。

假设我们正在试图预测房主是否会拖欠抵押贷款。在这种情况下,利率和房屋价值将有非常不同的范围和幅度。将这些值中的每一个相对于它们自身进行标准化,可以沿同一平面对它们进行数学表示。这可以提高模型训练的准确性和速度。

特征缩放是如何工作的

特征缩放的常见做法是计算每列的平均值和标准偏差。然后,对于每一行,计算偏离平均值的标准偏差数。

为了说明这个概念和实践,我们有一个列为 InitialOrderValue 和 DaysToConvert 的表。

带有原始数据的表格。这两列中的范围有很大差异。

带有样本数据的表格。

计算各列的平均值和标准偏差。我们可以使用这些值对原始值进行特征缩放。特征缩放值是原始值和平均值之间的差值除以标准偏差。

平均值和标准差

包含 Initial_order_value 和 Days_to_convert 列的平均值和标准偏差的表。

对于表中的第一条记录 Person_1,初始订单值为 $45.37。初始订单价值的平均值为 $32.81,标准偏差为 $13.58。这为我们提供了特征缩放值: ($45.37 - $32.81)/$13.58 = 0.925

请注意,单位 ($) 被除法抵消。这意味着 0.925 不再以美元计量,而是以与平均值的相对标准差计量。当我们将此应用于两列时,它们现在位于同一个描述性平面上。下表显示了特征缩放值。

具有特征缩放数据的表格

带有样本数据的表格。

原始值和特征缩放值之间的差异通过以下方框图可视化。

原始数据的方框图

方框图。

特征缩放数据的方框图

方框图。

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!