特徴量スケーリング
特徴量とは、ターゲット値を予測するために使用されるデータセットの列のことです。多くの場合、特徴量のデータ値にはさまざまな範囲があります。特徴量スケーリングは、数値列の値の範囲を標準化して、値を均等に分散させます。これにより、通常では関連性のない値を関連付けることが可能になります。
例えば、ある住宅所有者が住宅ローンの支払いを怠るかどうかを予測するとします。この場合、金利と住宅価格の範囲や大きさは非常に異なります。これらの値をそれぞれ相対的に標準化することで、数学的に同じ平面に沿って表現できます。これにより、モデル トレーニングの正確度と速度の両方を向上させることができます。
特徴量スケーリングの仕組み
特徴量スケーリングでは、各列の平均と標準偏差を計算するのが一般的です。次に、各行について、平均から離れた標準偏差の数を計算します。
InitialOrderValue 列と DaysToConvert 列を含む以下のテーブルで、この概念と実践について説明します。
列の平均値と標準偏差が計算されます。これらの値を使用して、元の値の特徴量をスケーリングできます。 特徴量をスケーリングした値は、元の値と平均値の差を標準偏差で割った値になります。
テーブルの最初のレコードである、Person_1 の最初の注文値は $45.37 です。最初の注文値の平均は $32.81 で、標準偏差は $13.58 です。これにより、($45.37 - $32.81)/$13.58 = 0.925 という特徴量をスケーリングした値が得られます。
単位 ($) は除算によって相殺されることに注意してください。これは、0.925 がドルではなく、平均からの相対的な標準偏差で測定されることを意味します。これを両方の列に適用すると、同じ記述平面上にあることになります。次のテーブルは、特徴量をスケーリングした値を示しています。
元の値と特徴量をスケーリングした値の違いが、次のボックス プロットで視覚化されています。