Sınıf dengeleme
İkili sınıflandırma probleminde, iki sınıftan biri için daha fazla veri toplanmış olabilir. Sınıflar arasındaki bu eşitsizlik, modelin çoğunluğa sahip sınıf hakkında, azınlıkta kalan sınıfa göre daha fazla öğrenmesine neden olur. Modeli iyileştirmek için sınıf dengelemeyi kullanabilirsiniz.
Sınıf dengeleme nedir
İkili sınıflandırma veri kümesinde iki sınıf bulunur. Sınıf dengesi, bu sınıfların göreceli frekansıdır.
Kusursuz rastgelelik sağlayan bir parayla yeteri kadar yazı tura atarsanız iki sınıf (yazı ve tura) için tam dengeli kümeler elde edersiniz. Tam dengeli bir senaryoda ortalama sınıf değeri 0,5 (bir sınıf için 1, diğeri için 0) olur.
Çoğu senaryoda sınıf dengesi eşit olmaz. Bu, modelin, çoğunluğa sahip sınıf hakkında azınlıkta kalan sınıfa göre daha fazla öğrenmesine neden olur.
Oransal yanlılık
Bir model, dengesiz verilerin çoğunluktaki sınıfıyla ilgili çok doğru tahminler yapabilir. Örneğin, web sitesi ziyaretçilerinin %95'i satın alma gerçekleştirmiyorsa model kimsenin satın alma gerçekleştirmeyeceğini belirttiğinde tahminin doğruluğu %95 olabilir. Model çoğunluktaki sınıfı öğrenir ancak genellikle daha önemli olan azınlıktaki sınıfı öğrenmesidir. Örneğin, web sitesi ziyaretçilerinin geriye kalan %5'lik kısmı neden satın alma gerçekleştirmiyor?
Sınıf dengelemenin etkileri
Veriniz sınıf dengeleme işlemi yaparak daha özellik odaklı ve azınlık sınıfı hakkında daha fazlasını öğrenmiş bir model elde edebilirsiniz. Model üzerindeki olası etkileri:
-
Azınlık sınıfının ağırlığı arttığından daha yüksek F1 puanı sağlanır.
-
Oransal yanlılığa daha az dayalı olduğundan marjinal olarak daha düşük genel doğruluk puanı sağlanır.
-
Özelliklere ve sınıfların nasıl ayırt edileceğine daha fazla dayandığından daha çok bilgi sağlayan bir model olur. SHAP değerleri, sınıfların dengeli olduğu modelde daha fazla bilgi verir.
Küçük veri kümelerinde sınıf dengelemenin özellik verilerinin kaybolmasına neden olabileceğini unutmayın. Ayrıca veri kümesindeki oranlar değiştirildiğinde bazı bilgiler kaybolabilir ve bunun sonucunda model tahminlerinde yanlılık görülebilir.
Sınıf dengeleme nasıl yapılır
Verilerde sınıf dengeleme işlemi yapmak için öncelikle ilgili iş senaryonuzdaki ideal dengenin nasıl olması gerektiğini belirlemeniz gerekir. Gereken denge oranı 80/20 ile 50/50 arasında değişebilir. Sınıf dengeleme işleminde gereğinden fazla ayarlamak modelde aşırı öğrenme sorununa yol açabileceğinden yalnızca gerektiği kadar dengeleme yapmanızı öneririz. Ardından manuel alıkoymalarla modeli test edin.
En yaygın sınıf dengeleme yöntemi eksik örneklemedir. Bu yöntemde, azınlıktaki sınıfla daha dengeli olması için çoğunluktaki sınıf için rastgele örneklem oluşturulur. Şekilde, dengeli sınıflara sahip bir veri kümesi elde etmek için orijinal veri kümesinde çoğunluk sınıfından nasıl örneklem alındığı gösterilmektedir.