メイン コンテンツをスキップする 補完的コンテンツへスキップ

特徴量スケーリング

特徴量とは、ターゲット値を予測するために使用されるデータセットの列のことです。多くの場合、特徴量のデータ値にはさまざまな範囲があります。特徴量スケーリングは、数値列の値の範囲を標準化して、値を均等に分散させます。これにより、通常では関連性のない値を関連付けることが可能になります。

例えば、ある住宅所有者が住宅ローンの支払いを怠るかどうかを予測するとします。この場合、金利と住宅価格の範囲や大きさは非常に異なります。これらの値をそれぞれ相対的に標準化することで、数学的に同じ平面に沿って表現できます。これにより、モデル トレーニングの正確度と速度の両方を向上させることができます。

特徴量スケーリングの仕組み

特徴量スケーリングでは、各列の平均と標準偏差を計算するのが一般的です。次に、各行について、平均から離れた標準偏差の数を計算します。

InitialOrderValue 列と DaysToConvert 列を含む以下のテーブルで、この概念と実践について説明します。

元のデータを含むテーブル。2 つの列の範囲には大きな差があります。

サンプル データを含むテーブル。

列の平均値と標準偏差が計算されます。これらの値を使用して、元の値の特徴量をスケーリングできます。 特徴量をスケーリングした値は、元の値と平均値の差を標準偏差で割った値になります。

平均値と標準偏差

Initial_order_value 列と Days_to_convert 列の平均と標準偏差を含むテーブル。

テーブルの最初のレコードである、Person_1 の最初の注文値は $45.37 です。最初の注文値の平均は $32.81 で、標準偏差は $13.58 です。これにより、($45.37 - $32.81)/$13.58 = 0.925 という特徴量をスケーリングした値が得られます。

単位 ($) は除算によって相殺されることに注意してください。これは、0.925 がドルではなく、平均からの相対的な標準偏差で測定されることを意味します。これを両方の列に適用すると、同じ記述平面上にあることになります。次のテーブルは、特徴量をスケーリングした値を示しています。

特徴量をスケーリングしたデータを含むテーブル

サンプル データを含むテーブル。

元の値と特徴量をスケーリングした値の違いが、次のボックス プロットで視覚化されています。

元データのボックス プロット

ボックス プロット。

特徴量をスケーリングしたデータのボックス プロット

ボックス プロット。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。