回帰モデルのスコアリング
回帰モデルは、結果を数値として予測し、ターゲット変数のモデルの最良推定値を示します。回帰モデルを評価するために、いくつかのメトリクスが生成されます。
R2
R 二乗 (R2) は、特徴量とターゲットの相関を表す単位のない尺度です。これは、「ターゲットの平均値を使用した場合と比較して、モデルの予測が完全に近い割合は何パーセントか?」と表現できます。
R2 の範囲は負の無限大から 1 までの範囲です。1 に近いほど特徴量変数によってターゲット値の分散を説明できます。つまり、正確な予測につながる重要な変数を備えている可能性が高くなります。
チャートは、年齢に対して身長をプロットした例を示しています。R2 が 0.56 の 2 番目のチャートよりも、R2 が 0.97 の最初のチャートのほうが、身長は年齢と密接に相関しています。
R2 値が低いからといって、必ずしも悪いモデルであるとは限らないことに注意してください。R2 をどのように解釈するかは、ユース ケースとデータに応じて異なります。回帰モデルのスコアリングについて考える場合、線形関係が常に重要であるとは限らないことを覚えておくことが重要です。線形回帰の結果が悪く、他のアルゴリズムのパフォーマンスが優れている場合は、単純に線形関係によってデータを十分にモデル化できないことを意味している可能性があります。
RMSE
二乗平均平方根誤差 (RMSE) は、予測値と実際値との間で予想される平均的な +/- の差として解釈できます。これは、残差 (特徴量に対する観測値と予測値の差) の標準偏差です。RMSE は、ターゲット値と同じ単位で測定されます。
例えば、ターゲットは契約値を予測することであり、RMSE = 1250 であるとします。これは、平均して、予測値と実際値とは +/- $1,250 の差があることを意味します。
MSE
平均二乗誤差 (MSE) は、予測値と平均的に期待される実際の値との間の二乗 +/- 差として解釈できます。これは、ターゲット値の二乗と同じ単位で測定されます。
契約値の予測の例では、MSE 値が1562500であれば、そのモデルは +/- 1,562,500 $2 の誤差があることを意味します。単位はドルの二乗であることに注意してください。
MAE
平均絶対誤差 (MAE) は、すべての絶対予測誤差の平均であり、予測誤差は実際の値と予測値の差です。予測誤差の絶対値を使用することで、+/- 誤差が相殺されるのを防ぐことができます。MAE は、ターゲット値と同じ単位で測定されます。