Sınıf dengeleme
İkili sınıflandırma probleminde, iki sınıftan biri için daha fazla veri toplanmış olabilir. Sınıflar arasındaki bu eşitsizlik, modelin çoğunluğa sahip sınıf hakkında, azınlıkta kalan sınıfa göre daha fazla öğrenmesine neden olur. Modeli iyileştirmek için sınıf dengelemeyi kullanabilirsiniz.
Sınıf dengeleme nedir
İkili sınıflandırma veri kümesinde iki sınıf bulunur. Sınıf dengesi, bu sınıfların göreceli frekansıdır.
Kusursuz rastgelelik sağlayan bir parayla yeteri kadar yazı tura atarsanız iki sınıf (yazı ve tura) için tam dengeli kümeler elde edersiniz. Tam dengeli bir senaryoda ortalama sınıf değeri 0,5 (bir sınıf için 1, diğeri için 0) olur.
Tam dengeli iki sınıf

Çoğu senaryoda sınıf dengesi eşit olmaz. Bu, modelin, çoğunluğa sahip sınıf hakkında azınlıkta kalan sınıfa göre daha fazla öğrenmesine neden olur.
Eşit olmayan dengeye sahip sınıf örnekleri

Oransal yanlılık
Bir model, dengesiz verilerin çoğunluktaki sınıfıyla ilgili çok doğru tahminler yapabilir. Örneğin, web sitesi ziyaretçilerinin %95'i satın alma gerçekleştirmiyorsa model kimsenin satın alma gerçekleştirmeyeceğini belirttiğinde tahminin doğruluğu %95 olabilir. Model çoğunluktaki sınıfı öğrenir ancak genellikle daha önemli olan azınlıktaki sınıfı öğrenmesidir. Örneğin, web sitesi ziyaretçilerinin geriye kalan %5'lik kısmı neden satın alma gerçekleştirmiyor?
Sınıf dengelemenin etkileri
Veriniz sınıf dengeleme işlemi yaparak daha özellik odaklı ve azınlık sınıfı hakkında daha fazlasını öğrenmiş bir model elde edebilirsiniz. Model üzerindeki olası etkileri:
-
Azınlık sınıfının ağırlığı arttığından daha yüksek F1 puanı sağlanır.
-
Oransal yanlılığa daha az dayalı olduğundan marjinal olarak daha düşük genel doğruluk puanı sağlanır.
-
Özelliklere ve sınıfların nasıl ayırt edileceğine daha fazla dayandığından daha çok bilgi sağlayan bir model olur. SHAP değerleri, sınıfların dengeli olduğu modelde daha fazla bilgi verir.
Küçük veri kümelerinde sınıf dengelemenin özellik verilerinin kaybolmasına neden olabileceğini unutmayın. Ayrıca veri kümesindeki oranlar değiştirildiğinde bazı bilgiler kaybolabilir ve bunun sonucunda model tahminlerinde yanlılık görülebilir.
Sınıf dengeleme nasıl yapılır
Verilerde sınıf dengeleme işlemi yapmak için öncelikle ilgili iş senaryonuzdaki ideal dengenin nasıl olması gerektiğini belirlemeniz gerekir. Gereken denge oranı 80/20 ile 50/50 arasında değişebilir. Sınıf dengeleme işleminde gereğinden fazla ayarlamak modelde aşırı öğrenme sorununa yol açabileceğinden yalnızca gerektiği kadar dengeleme yapmanızı öneririz. Ardından manuel alıkoymalarla modeli test edin.
Fazla örnek alma
Azınlık sınıfınız yeterli veriye sahip olmadığında genellikle fazla örnek almaya ihtiyaç duyulur.
Fazla örnek alma ile azınlık sınıfını temsil edecek veri kayıtları eklenir. Spesifik olarak, azınlık sınıfından birden fazla örnek almayı ve bunları orijinal veri kümesine eklemeyi içerir.
Sonuç, çoğunluk ve azınlık sınıflarının daha dengeli olduğu bir veri kümesidir.
Çoğunluk sınıfıyla (yeşil) eşit denge elde etmek için azınlık sınıfında (mavi) fazla örnekleme yapılır

Eksik örnekleme
Özellikle çoğunluk sınıfı için çok fazla veriye sahip olduğunuzda eksik örnekleme kullanın.
Eksik örneklemede, azınlık sınıfıyla daha dengeli olması amacıyla çoğunluk sınıfı için rastgele örneklem oluşturulur. Şekilde, dengeli sınıflara sahip bir veri kümesi elde etmek için orijinal veri kümesinde çoğunluk sınıfından nasıl örneklem alındığı gösterilmektedir.
Azınlık sınıfıyla (yeşil) eşit denge elde etmek için çoğunluk sınıfında (mavi) eksik örnekleme yapılır

Qlik Predict içinde otomatik sınıf dengeleme
Bu yardım konusu, gerektiğinde sınıf dengelemeyi manuel olarak nasıl gerçekleştirebileceğinizi özetlemektedir. Modelleri, akıllı model optimizasyonu (yeni ML deneylerinde varsayılan olarak etkinleştirilir) kullanarak eğitiyorsanız Qlik Predict, eğitim sürecinde otomatik olarak sınıf dengelemesi yapar.
Dengesizlik tespiti ve kullanılan özel işlemler hakkında daha fazla bilgi için bkz. Sınıf dengeleme.