特征缩放

特征是数据集中用于预测目标值的列。特征的数据值通常具有不同的范围。特征缩放标准化数值列中的值范围，以均匀分布值。这使得关联其他不可接受的值成为可能。

假设我们正在试图预测房主是否会拖欠抵押贷款。在这种情况下，利率和房屋价值将有非常不同的范围和幅度。将这些值中的每一个相对于它们自身进行标准化，可以沿同一平面对它们进行数学表示。这可以提高模型训练的准确性和速度。

特征缩放是如何工作的

特征缩放的常见做法是计算每列的平均值和标准偏差。然后，对于每一行，计算偏离平均值的标准偏差数。

为了说明这个概念和实践，我们有一个列为 InitialOrderValue 和 DaysToConvert 的表。

计算各列的平均值和标准偏差。我们可以使用这些值对原始值进行特征缩放。特征缩放值是原始值和平均值之间的差值除以标准偏差。

对于表中的第一条记录 Person_1，初始订单值为 $45.37。初始订单价值的平均值为 $32.81，标准偏差为 $13.58。这为我们提供了特征缩放值： ($45.37 - $32.81)/$13.58 = 0.925

请注意，单位 ($) 被除法抵消。这意味着 0.925 不再以美元计量，而是以与平均值的相对标准差计量。当我们将此应用于两列时，它们现在位于同一个描述性平面上。下表显示了特征缩放值。

原始值和特征缩放值之间的差异通过以下方框图可视化。

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进！