回帰モデルのスコアリング

回帰モデルは、結果を数値として予測し、ターゲット変数のモデルの最良推定値を示します。回帰モデルを評価するために、いくつかのメトリクスが生成されます。

R2

R 二乗 (R2) は、特徴量とターゲットの相関を表す単位のない尺度です。これは、「ターゲットの平均値を使用した場合と比較して、モデルの予測が完全に近い割合は何パーセントか?」と表現できます。

R2 の範囲は負の無限大から 1 までの範囲です。1 に近いほど特徴量変数によってターゲット値の分散を説明できます。つまり、正確な予測につながる重要な変数を備えている可能性が高くなります。

チャートは、年齢に対して身長をプロットした例を示しています。R2 が 0.56 の 2 番目のチャートよりも、R2 が 0.97 の最初のチャートのほうが、身長は年齢と密接に相関しています。

R2 値が異なる 2 つのグラフ。 — 身長と年齢を異なる R2 値でプロットした 2 つのチャート

R2 値が低いからといって、必ずしも悪いモデルであるとは限らないことに注意してください。R2 をどのように解釈するかは、ユースケースとデータに応じて異なります。回帰モデルのスコアリングについて考える場合、線形関係が常に重要であるとは限らないことを覚えておくことが重要です。線形回帰の結果が悪く、他のアルゴリズムのパフォーマンスが優れている場合は、単純に線形関係によってデータを十分にモデル化できないことを意味している可能性があります。

RMSE

二乗平均平方根誤差 (RMSE) は、予測値と実際値との間で予想される平均的な +/- の差として解釈できます。これは、残差 (特徴量に対する観測値と予測値の差) の標準偏差です。RMSE は、ターゲット値と同じ単位で測定されます。

例えば、ターゲットは契約値を予測することであり、RMSE = 1250 であるとします。これは、平均して、予測値と実際値とは +/- $1,250 の差があることを意味します。

MSE

平均二乗誤差 (MSE) は、予測値と平均的に期待される実際の値との間の二乗 +/- 差として解釈できます。これは、ターゲット値の二乗と同じ単位で測定されます。

契約値の予測の例では、MSE 値が1562500であれば、そのモデルは +/- 1,562,500 $2 の誤差があることを意味します。単位はドルの二乗であることに注意してください。

MAE

平均絶対誤差 (MAE) は、すべての絶対予測誤差の平均であり、予測誤差は実際の値と予測値の差です。予測誤差の絶対値を使用することで、+/- 誤差が相殺されるのを防ぐことができます。MAE は、ターゲット値と同じ単位で測定されます。

予測速度

予測速度は、二項分類、多項分類、回帰、時系列など、すべてのモデルタイプに適用されるモデルメトリクスです。予測速度は、機械学習モデルが予測を生成できる速度を測定します。

Qlik Predict では、予測速度は特徴量の計算時間とテストデータセットの予測時間を組み合わせて計算されます。表示単位は 1 秒あたりの行数です。

予測速度は、実験バージョンを実行した後に [モデルメトリクス] テーブルで分析できます。組み込み分析を使用してモデルを分析するときに、予測速度データを表示することもできます。詳細は以下をご覧ください。

考慮事項

測定される予測速度は、予測の対象となるデータではなく、トレーニングデータセットのサイズに基づいています。モデルを展開した後、トレーニングデータと予測データのサイズが大きく異なる場合や、1 行または少数のデータ行に対してリアルタイム予測を作成する場合に、予測が作成される速度に違いが見られる可能性があります。

バイアスメトリクス

これらのメトリクスに加えて、バイアス検出を実行する対象となる特徴量に対して、いくつかのバイアスメトリクスも使用できます。これらのメトリクスの一部は、トレーニングしているモデルタイプに固有です。詳細については、「機械学習モデルにおけるバイアスの検出」を参照してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください