メイン コンテンツをスキップする 補完的コンテンツへスキップ

二項分類モデルのスコアリング

二項分類モデルは、結果を「はい」または「いいえ」などの 2 つのカテゴリに分配します。モデルが結果をどの程度正確に分配するかは、さまざまなスコアリング メトリクスで評価できます。

このメトリクスにより、モデルの異なる長所と短所が明確になります。そのどれもが、単体では真の意味での適合性を測ることはできません。特に、全体的な正確度のスコアが高いからといって、そのモデルが優れているとは限らないことに注意することが重要です。例えば、あるビジネスのコンバージョン率が 10% しかない場合はどうなるでしょうか。このモデルは、コンバージョンに至る見込み顧客はいないというだけで、90% の正確度を獲得できます。ここで、モデルの長所と短所のバランスを判断するために、F1、再現率、適合率が役に立ちます。見込み顧客の 100% がコンバージョンに至らないとモデルが仮定する場合、F1 は 0 になります。

二項分類の実験のトレーニング中、次のチャートが自動で生成され、生成されたモデルを素早く分析できます。

  • Permutation importance: 機械学習モデルのパフォーマンスが各特徴量に依存する度合いを表示するチャート。詳細については、「Permutation Importance」を参照してください。

  • SHAP importance: 予測される結果に対する各特徴量の影響度を表すチャート。詳細については、「実験トレーニングにおける SHAP Importance」を参照してください。

  • 混同行列: 分類モデルにおける予測結果の正確度を要約するチャート。「混同行列」を参照してください。

  • ROC 曲線: 実際の結果が陽性である場合に、機械学習モデルがポジティブ クラスを予測するのにどれほど優れているかを示すチャート。 「AUC と ROC 曲線」を参照してください。

混同行列

二項分類問題のメトリクスのほとんどは、混同行列の値の異なる計算によって生成されます。混同行列は、モデル ビューのビジュアライゼーションの 1 つです。正しく予測された実際の true 値と実際の false 値の数が、クラスごとの合計で示されます。チャートに表示される値は、トレーニング後にモデルのパフォーマンスを検証するために使用される自動ホールドアウト データに基づいています。データセット内の各レコードは、次の象限の 1 つに分類されます。

  • 真陽性 (TP): 実際の値が true であるときに、正しく true と予測された。

  • 偽陽性 (FP): 実際の値が false であるときに、誤って true と予測された。

  • 偽陰性 (FN): 実際の値が true であるときに、誤って false と予測された。

  • 真陰性 (TN): 実際の値が false であるときに、正しく false と予測された。

各象限の数値の下には、メトリクスの再現率 (TP)、Fallout (FP)、Miss Rate (FN)、Specificity (TN) のパーセンテージ値も表示されます。値にカーソルを合わせると、メトリクスを示すツールチップが表示されます。

混同行列のビジュアライゼーション

象限を含む混同行列。

あらゆる現実的なケースにおいて、混同行列には偽陽性と偽陰性が表示されます。トレーニング データで完璧な予測をすることは、モデルが答えを記憶していることを意味し、現実の世界ではうまく機能しないでしょう。真の正と負を十分にキャプチャしたことを確認する必要があります。

ヒント メモ場合によっては、機械学習の問題に回帰が適切な選択になることもありますが、混同行列で提供される簡単な知識が役立つ場合もあります。次にできることは、ターゲット列を除いて同じデータを使用して、1 つのモデルを回帰として実行し、1 つのモデルを二項分類として実行することです。これは、二値分類の説明のしやすさと回帰の堅牢性を兼ね備えています。

F1

F1 スコアとは、陽性予測と実際の陽性記録の正確度に着目し、クラスが不均衡な場合の正確度を考慮しようとするメトリクスのことです。F1 スコアは、モデルが重要な結果を正確に捉えている程度とみなすことができます。このメトリクスは、再現率と適合率のバランスを取りながら、これら 2 つの中間にあるものを見つけようとします。データセットの不均衡が大きいほど、全体的な正確度が同じでも F1 スコアが低くなる可能性があることに注意してください。

F1 値が高い場合、他のすべてのスコアリング メトリクスが高くなります。値が低い場合は、さらなる分析が必要であることを示しています。ただし、スコアが非常に高い場合、またはホールドアウト スコアがクロス検証スコアよりもはるかに低い場合は、データ漏洩の兆候である可能性があります。

F1 の計算式: 2 x ((適合率 x 再現率) / (適合率 + 再現率))

再現率

再現率とは、真陽性率のことです。実際の値が true である場合に、そのモデルが正確に true と予測した頻度を測定します。つまり、モデルはデータセット内の実際の値が true であるケースをどの程度正確に見つけられたでしょうか。再現率は、ポジティブ クラスの記憶の程度の尺度です。再現率の計算式: TP / (TP + FN)

適合率

適合率は、陽性適中率とも呼ばれます。何かが true であると予測されたときに、モデルが正解した確率を測定します。適合率の計算式: TP / (TP + FP)

再現率と適合率のトレードオフ

再現率は、モデルがどのくらい網羅しているのかを示すことができます。偽陽性の予測があった場合でも、すべての true をキャプチャしていますか。できるだけ多くの true をキャプチャしていますか。適合率は、再現率とは少し逆になります。ここで、モデルが true を予測する場合、true の予測が確実に正確であることを確認する必要があります。ただし、適合率が高いほど、何かが true であってもモデルが false を予測する偽陰性が増えることになります。

true の結果を見逃さないことと、true であると予測された結果が実際には false ではないことを確認することとの間には、トレードオフの関係があります。適合率または再現率のどちらが高く偏るほうが望ましいかは、ビジネス ユース ケースに応じて異なります。例えば、病気の診断予測では、実際に病気にかかっている患者、つまり偽陰性を見逃さないようにする必要があります。

  • 偽陰性の「コスト」が高い場合、高い再現率に偏ったモデルが正当化される可能性があります。

  • 偽陽性の「コスト」が高い場合、高い適合率に偏ったモデルが正当化される可能性があります。

正確度

正確度は、モデルが正しい予測を行った頻度の平均を測定します。正確度の計算式: (TP + TN) / (すべての予測)

特異性

Specificity とは、真陰性率のことです。実際の値が false である場合に、そのモデルが正確に false と予測した頻度を測定します。Specificity の計算式: TN / (FP + TN)

MCC

マシューズ相関係数 (MCC) の範囲は -1 から 1 で、1 はモデルがすべてのサンプルを正しく予測したことを意味します。MCC の計算式: ((TP x TN) - (FP x FN)) / [(TP + FP) x (FN + TN) x (FP + TN) x (TP + FN)]^(1/2)

Miss Rate

Miss Rate とは、偽陰性率のことです。これは、偽陰性の数と実際の陽性事象の総数との比率です。Miss Rate の計算式: FN / (TP + FN)

フォールアウト

Fallout とは、偽陽性率のことです。これは、偽陽性の数と実際の陰性事象の総数との比率です。Fallout の計算式: FP / (FP + TN)

NPV

陰性適中率 (NPV) は、何かが間違っているという予測をしたときに、そのモデルの正解率を測定します。NPV の計算式: TN / (FN + TN)

ログ損失

Log Loss とは、ロジスティック回帰の正確度を表す一般的な指標のことです。Log Loss 値が低いほど、予測が優れていることを意味します。最適なモデルの Log Loss は 0 になります。

AUC と ROC 曲線

曲線下面積 (AUC) は、モデルがどれほど決定論的であるかを理解するのに役立つ、より複雑な正確度メトリクスです。これは、実際の結果が陽性である場合に、モデルがポジティブ クラスを予測するのにどれだけ優れているかを示しています。

AUC は、ROC 曲線下面積として定義されます。ROC 曲線は、0.0 から 1.0 までのさまざまなしきい値について、偽陽性率 (x 軸) と真陽性率 (y 軸) をプロットします。別の言い方をすると、誤報率とヒット率をプロットしたものです。この曲線は、クラス間の分離が可能かどうかを理解するのに有効であり、予測された結果を正確に区別するのにデータが十分であるかどうかを示します。

真陽性率の計算式: TP / (TP + FN)

  • 真陽性率が 1.0 (曲線の下で可能な最大面積) に近づくほど、モデルはより決定論的になります。

  • 真陽性率が 0.5 に近づくほど、モデルは決定論的ではなくなります。

以下の画像は、良好な ROC 曲線を示しています。曲線ができるだけ 1 に近くなり、AUC が高くなるため、良好といえます。点線はランダムで、50:50 です。AUC が低い場合、その曲線は良くない曲線とみなされます。

AUC が高く、良好な ROC 曲線

良好な ROC 曲線

しきい値

しきい値とは、予測が true である確率のことです。これは、偽陽性と偽陰性の間のトレードオフを表しています。しきい値はアルゴリズムごとに決定され、モデルのアルゴリズムごとに異なるしきい値が存在する可能性があります。

しきい値の調整

しきい値の調整は、二項分類モデルの F1 スコアを最適化するために、正しいしきい値が選択されるようにする効果的な方法です。AutoML は、0 から 1 までの数百の異なる可能なしきい値の適合率と再現率を計算し、最も高い F1 スコアを達成するしきい値が選択されます。

既定の 0.5 しきい値に依存するのではなく、しきい値を選択すると、陽性と陰性のケースの数が不均衡なデータセットに対してより堅牢な予測が生成されます。

チャートでは、しきい値は 0.5 に設定されています。この場合、実際には true で、0.5 未満と予測されたレコードは、偽 (偽陰性) の予測ラベルを取得しました。

しきい値 0.5

しきい値を 0.5 としたグラフ。

レコードが true または false であると予測されるかどうかを決定するしきい値を変更することにより、より高い再現率またはより高い適合率に偏らせることができます。

別のしきい値を使用すると、再現率または適合率が高くなります

2 つの代替しきい値がマークされたグラフ。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。