クラス バランス
二項分類問題では、2 つのクラスのうちのどちらかに対して、より多くのデータが収集される場合があります。このようなクラス間のバランスの偏りにより、モデルは少数派のクラスよりも多数派のクラスについて多く学習することになります。クラス バランスを使用して、モデルを改善できます。
クラス バランスとは
二項分類のデータセットには、2 つのクラスがあります。クラス バランスとは、それらのクラスの相対的な頻度のことです。
コインを何度か裏返し続けると、完全にバランスが取れた 2 つのクラス (表と裏) のセットが得られます。完全にバランスが取れた場合、平均クラス値は 0.5 です (一方のクラスが 1 で、もう一方のクラスが 0)。
多くの場合、クラス バランスは均等ではないでしょう。不均等な場合、モデルは少数派のクラスよりも多数派のクラスについて多く学習することになります。
比率の偏り
不均衡なデータで多数派のクラスを推測すると、モデルの正確度は非常に高くなります。例えば、ウェブサイト訪問者の 95% が購入しない場合、「誰も購入しない」というモデルは 95% 正確であると言えます。モデルは多数派のクラスについて学習しますが、少数派のクラスについて学習することのほうが重要である場合が多くあります。例えば、ウェブサイト訪問者の残りの 5% は、なぜ購入しているのでしょうか。
クラス バランスによる影響
データにクラス バランスを実行することで、より特徴量に焦点を当てた、少数派のクラスについて多くのことを学習したモデルを取得できます。考えられるモデルへの影響は次のとおりです。
-
少数派のクラスに対する比重が大きくなるため、F1 スコアが高くなる。
-
比率の偏りにあまり依存しないため、総合的な正確度がわずかに低くなる。
-
特徴量と、クラスが別々であることを区別する方法により依存するため、より有益なモデルになる。クラス バランスのモデルでは、SHAP 値がより有益になる場合がある。
小規模なデータセットでは、クラス バランスによって特徴量データが失われる可能性があることに注意してください。また、データセットの比率を変更することで、一部の情報が失われ、モデルの予測に偏りが生じる可能性があります。
クラス バランスの方法
データにクラス バランスを実行するには、まず特定のビジネス ケースに対する理想的なバランスを知る必要があります。80/20 から 50/50 までの範囲が必要になります。クラス バランスを過度に調整すると、オーバーフィット モデルになる可能性があるため、必要に応じてバランスを取ってください。次に、手動ホールドアウトでモデルをテストします。
クラス バランスの最も一般的な方法は、アンダーサンプリングです。多数派のクラスからランダムにサンプリングすることで、少数派のクラスとのバランスがよくなるようにします。以下の図は、元のデータセットの多数派のクラスからサンプルを取り、バランスの取れたクラスのデータセットを取得する方法を示しています。