Makine öğrenimi modellerinde yanlılığı tespit etme
ML deneylerinde eğittiğiniz makine öğrenimi modellerinde yanlılığı tespit edebilirsiniz. Tespit edilen yanlılığı çarpık özellikleri bırakarak, uygunsuz veri toplamayı düzelterek veya eğitim veri kümenizin yapısını değiştirerek giderin.
Yanlılığı anlama
Makine öğreniminde yanlılık, modellerin belirli grupları diğerlerine tercih ettiği veya edebileceği istenmeyen bir olgudur. Yanlılık, adaleti olumsuz etkiler ve tahminler ile etkiledikleri kararlar için etik sonuçları vardır. Yanlılık, eğitim verilerinde, eğitilmiş modellerin tahmin ettiği sonuçlarda veya her ikisinde de ortaya çıkabilir.
Yanlılık örnekleri—ve karar verme üzerindeki sonuçları—şunlardır:
-
Belirli gelir düzeylerini veya sağlık durumlarını orantısız bir şekilde temsil eden veriler üzerinde modelleri eğitmek, sigorta talepleri için haksız kararlara yol açar.
-
Adayların ırkı ve cinsiyeti açısından çarpık veriler üzerinde modelleri eğitmek, işe alım kararlarını etkiler.
-
Posta kodlarını kredi değerliliğiyle ilişkilendiren modelleri eğitme.
Veri yanlılığı
Veri yanlılığı, bir modeli eğitmek için kullanılan verilerin belirli grupları diğerlerine göre kayıracak şekilde çarpık olması durumunda ortaya çıkar. Veri yanlılığı, eğitim verilerindeki gruplar arasında eşit olmayan temsil nedeniyle oluşur.
Örneğin, işe alım sonuçlarını tahmin etmek için kullanılan bir veri kümesi, bir cinsiyeti diğerlerinden daha başarılı olarak temsil eden veriler içerebilir.
Veri yanlılığı, eğitim verilerine çeşitli yollarla dahil edilebilir, bunlar arasında:
-
Belirli grupların eksik veya fazla temsil edildiği uygunsuz veri toplama.
-
Tarihsel kalıpları doğru bir şekilde yansıtan, ancak bu eğilimlerdeki ve uygulamalardaki temel yanlılığı ortaya koyan veriler.
Aşağıdaki görselleştirmedeki veriler veri yanlılığını gösterir.
Bir sütun grafik ile görselleştirilmiş veri yanlılığına bir örnek. Kaynak verilerde, belirli medeni durumlar gelir düzeyleri açısından diğerlerine kıyasla fazla temsil edilmektedir.

Model yanlılığı
Model yanlılığı veya algoritmik yanlılık, bir makine öğrenimi modelinin yaptığı tahminlerin bazı grupları diğerlerine tercih etmesiyle meydana gelir. Model yanlılığıyla, modeller belirli gruplar ve sonuçlar arasında ilişkilendirmeler yaparak diğer grupları olumsuz etkiler. Model yanlılığına, yanlış toplanmış veya çarpık verilerin yanı sıra kullanılan eğitim algoritmasına özgü davranışlar neden olabilir.
Örneğin, bir modelin yaptığı haksız ilişkilendirmeler nedeniyle belirli yaş grupları için orantısız derecede olumsuz işe alım oranları tahmin edilebilir.
Bir ML deneyindeki Analiz sekmesinden model yanlılığını vurgulayan görselleştirme. Görselleştirme, bir modelin belirli medeni durumlar için diğerlerinden daha yüksek gelir tahminleri yaptığını gösteriyor.

Veri yanlılığı metrikleri
Qlik Predict içinde, veri yanlılığı şunlar analiz edilerek ölçülür:
-
Temsil oranı: Özellikteki her gruba ait verilerin dağılımını, özellikteki tüm verilerle karşılaştırır. Hesaplanan metrik, temsil oranı eşitlik oranıdır.
-
Koşullu dağıtım eşitlik oranı: Özellikteki her grup için veriler arasındaki dengeyi, hedef sütunun değerlerine göre karşılaştırır. Hesaplanan metrik, koşullu dağıtım eşitlik oranıdır.
Bu metrikler için kabul edilebilir değerler hakkında daha fazla bilgi edinmek için Sapma metrikleri için kabul edilebilir değerler bölümüne bakın.
Model yanlılık metrikleri
Qlik Predict içinde, model yanlılık metrikleri deney için model türü bağlamında en iyi anlaşılır. Genel olarak konuşursak, aşağıdaki yanlılık metriği kategorileri vardır:
-
Sınıflandırma modeli metrikleri
-
Regresyon ve zaman serisi modeli metrikleri
Bu metrikler için kabul edilebilir değerler hakkında daha fazla bilgi edinmek için Sapma metrikleri için kabul edilebilir değerler bölümüne bakın.
Sınıflandırma modelleri
İkili ve çok sınıflı sınıflandırma modellerinde, yanlılık tahmin edilen hedef değerler (sonuçlar) analiz edilerek ölçülür. Özellikle, gruplar için pozitif ve negatif sonuç oranlarındaki farklılıklar karşılaştırılır (burada "pozitif" ve "negatif", olumluya karşı olumsuz sonuçları ifade eder; örneğin, bir İşe Alındı hedef sütunu için evet veya hayır değeri). Bu modeller aşağıdaki yanlılık metriklerine sahiptir:
-
Farklı etki
-
İstatistiksel eşitlik farkı
-
Eşit fırsat farklılığı
Farklı etki
Farklı etki oranı (DI), hassas bir özellikteki grupların modelin tahmin edilen sonuçlarında kayırılıp kayırılmadığını veya zarar görüp görmediğini değerlendirir. Her grubun tahmin edilen değer olarak ne sıklıkta seçildiğini hesaplayarak ölçülür ve bu, özellikteki en çok tercih edilen grubun seçim oranıyla karşılaştırılır.
İstatistiksel eşitlik farkı
Farklı etkiye benzer şekilde, istatistiksel eşitlik farkı (SPD), model tahminlerinin herhangi bir bireysel grubu destekleyip desteklemediğini veya onlara zarar verip vermediğini belirlemek için değerlendirir. Metrik, en büyük ve en küçük gruplar arasındaki pozitif sonuç oranları karşılaştırılarak hesaplanır.
Eşit fırsat farklılığı
Eşit fırsat farkı (EOD), diğer iki sınıflandırma modeli yanlılık metriğine benzer. EOD, bir özellikteki gruplar arasında en yüksek ve en düşük gerçek pozitif oranlarını karşılaştırır.
Regresyon ve zaman serisi modelleri
Regresyon ve zaman serisi modellerinde, yanlılık, modellerin tahminlerinde ne sıklıkta hata yaptığının karşılaştırılmasıyla ölçülür ve tahmin edilen sonuçların adilliğini belirlemek için eşitlik oranları kullanılır.
Aşağıdaki yanlılık metrikleri, model doğruluğunu değerlendirmek için yaygın olarak kullanılan hata metrikleri kullanılarak hesaplanır:
Sapma metrikleri için kabul edilebilir değerler
| Sapma metriği | Sapma kategorisi | Uygulanabilir model türleri | Kabul edilebilir değerler |
|---|---|---|---|
| Temsil oranı için eşitlik oranı | Veri yanlılığı | Tümü |
İdeal değer: 0,8 ile 1 arasında. Daha düşük bir oran, orantısız temsili gösterir. |
| Koşullu dağıtım eşitlik oranı | Veri yanlılığı | Tümü |
İdeal değer: 0,8 ile 1 arasında. Daha düşük bir oran, orantısız temsili gösterir. |
| İstatistiksel eşitlik farkı (SPD) | Model yanlılığı | İkili sınıflandırma, çok sınıflı sınıflandırma |
İdeal değer: 0. 0,2'nin üzerindeki bir değer, adaletsizliğin güçlü bir işaretidir. |
| Farklı etki (DI) | Model yanlılığı | İkili sınıflandırma, çok sınıflı sınıflandırma |
İdeal değer: 1. 0,8'in altındaki bir değer, adaletsizliğe işaret eder. |
| Eşit fırsat farklılığı (EOD) | Model yanlılığı | İkili sınıflandırma, çok sınıflı sınıflandırma |
İdeal değer: 0. 0,1'in üzerindeki bir değer adaletsizliğe işaret eder. |
| MAE eşitlik oranı | Model yanlılığı | Regresyon |
İdeal değer: 0,8 ile 1 arasında. 1,25'in üzerindeki bir değer adaletsizliğe işaret eder. |
| MSE eşitlik oranı | Model yanlılığı | Regresyon |
İdeal değer: 0,8 ile 1 arasında. 1.25'in üzerindeki bir değer haksızlığa işaret eder. |
| RMSE eşitlik oranı | Model yanlılığı | Regresyon |
İdeal değer: 0.8 ile 1 arasında. 1.25'in üzerindeki bir değer haksızlığa işaret eder. |
| R2 boşluğu | Model yanlılığı | Regresyon |
İdeal değer: 0. 0.2'nin üzerindeki bir değer haksızlığa işaret eder. |
| MASE eşitlik oranı | Model yanlılığı | Zaman dizileri | 1,25'in üzerindeki bir değer haksızlığa işaret eder. |
| MAPE eşitlik oranı | Model yanlılığı | Zaman dizileri | 1,25'in üzerindeki bir değer haksızlığa işaret eder. |
| SMAPE eşitlik oranı | Model yanlılığı | Zaman dizileri | 1.25'in üzerindeki bir değer, adaletsizliği işaret eder. |
Yanlılık algılamayı yapılandırma
Yanlılık algılama, deney sürümündeki her eğitim özellik için yapılandırılır.
Aşağıdakileri yapın:
-
Bir ML deneyinde, eğitim yapılandırma panelinde Sapma öğesini genişletin.
-
Sapma algılaması çalıştırmak istediğiniz özellikleri seçin.
Alternatif olarak, Şema görünümü'nde istenen özellikler için sapma algılamayı açın.
Yanlılık sonuçlarının hızlı analizi
Eğitim tamamlandıktan sonra, Modeller sekmesinde yanlılık algılama sonuçlarına hızlı bir genel bakış elde edebilirsiniz.
Hızlı analiz öğeleri arasında aşağı kaydırarak Sapma tespiti öğesini bulun. simgelerini kullanarak bölümleri genişletin. Olası veri ve model sapmaları olan özellikleri analiz edebilirsiniz.
Modeller sekmesindeki Sapma tespiti bölümünü kullanarak veri sapmasını analiz etme.

Notlar
-
Kayrılan gruplar, yanlılık metriklerine göre verilerde veya hedefin öngörülen sonuçlarında aşırı temsil edilen hedef değerler veya aralıklardır. Zarar gören gruplar, yanlılık metriklerine göre verilerde veya hedefin öngörülen sonuçlarında eksik temsil edilen hedef değerler veya aralıklardır.
Yanlılık metriklerinin nasıl kullanıldığı hakkında bilgi için bkz. Sapma metrikleri için kabul edilebilir değerler.
Parantez içindeki sayılar, metriği hesaplamak için kullanılan ölçütleri açıklar. Örneğin, metrik eşit fırsat farkı (EOD) ise, kadın (%10) ve erkek (%80) erkekler için %80 ve kadınlar için %10 doğru pozitif oranlarını gösterir.
-
Hedef sonuç, model tarafından tahmin edilen hedef sütunun değerini ifade eder.
-
Sınırlı alan nedeniyle tüm yanlılık metrikleri ve değerleri Modeller sekmesinde gösterilmez. Örnek:
-
Metrik ve model türlerine bağlı olarak, bazı metrikler ve gruplar yalnızca minimumları ve maksimumları içerebilir.
-
Birden çok metrik bir özellik için yanlılık eşiğini aşarsa, en yüksek adaletsizlik derecesini gösteren metrik görüntülenir.
-
Çok sınıflı sınıflandırma modellerindeki yanlı özellikler için, yalnızca en yüksek adaletsizlik derecesini gösteren metrik gösterilir.
-
-
Daha ayrıntılı bilgiye Analiz sekmesinden ve model eğitim raporundan ulaşılabilir. bk. Yanlılık sonuçlarının ayrıntılı analizi.
- Bu bölümde kullanılan terminoloji hakkında daha fazla bilgi için Bu sayfadaki terminoloji bölümüne bakın.
Yanlılık sonuçlarının ayrıntılı analizi
Yanlılık sonuçlarını Analiz sekmesinde daha derinlemesine inceleyebilirsiniz.
Aşağıdakileri yapın:
-
Bir ML deneyinde, bir model seçin ve Analiz Et sekmesine gidin.
-
Sapma sayfasını açın.
-
İstenilen analize bağlı olarak Veri sapması ile Model sapması arasında seçim yapın.
-
Potansiyel sapmaya sahip özellikler tablosunda, tek bir özellik seçin.
Olası sapmayı gösteren grafikler ve metrikler kırmızı arka planla görüntülenir. Görselleştirmelerde tıklayarak ve çizerek özellikleri seçebilirsiniz.
Tablodaki metrikler, standart özelliklere karşılık gelen yanlılık metrikleri için statiktir. Gelecekteki özellikler için, yanlılık metrikleri zaman serisi grubu seçimine bağlı olarak dinamik olarak değişir.
Seçilen özellik için model yanlılığı analizini gösteren Analiz sekmesi. Olası yanlılık, grafikler ve metrikler için kırmızı arka planlarla belirtilir.

Ayrıntılı model analizlerinde gezinme hakkında daha fazla bilgi için bkz. Ayrıntılı model analizi yapma.
Eğitim raporlarında yanlılık sonuçları
Yanlılık metrikleri, ML eğitim raporlarında da sunulur.Raporda özel bir Yanlılık bölümünde yer alırlar.
Eğitim raporları hakkında daha fazla bilgi için bkz. ML eğitim raporları indirme.
Yanlılığı giderme
Modelleriniz için yanlılık algılama sonuçlarını analiz ettikten sonra, aşağıdakilerden herhangi birini yapmak isteyebilirsiniz:
-
Yanlı özellikleri bıraktıktan sonra yeni deney sürümlerini çalıştırın.
-
Yanlılık gösteren modelleri dağıtmaktan kaçının, bunun yerine yanlılık metrikleri için önerilen kriterleri karşılayan modelleri dağıtın.
-
Uygunsuz veri toplama işlemlerini düzeltmek veya eşit olmayan temsil oranlarını ele almak için veri kümenizi güncelleyin.
-
Yapılandırılmış çerçeveyi kullanarak makine öğrenimi probleminizi yeniden tanımlayın. Örneğin, orijinal makine öğrenimi sorunuz doğası gereği yanlıysa, modeller adil tahminler oluşturmada muhtemelen her zaman güvenilmez olacaktır.
Bu sayfadaki terminoloji
Bu sayfada ve Qlik Predict içinde, "gruplar" bağlama göre farklı anlamlara gelen bir terimdir:
-
"Gruplar", önyargı açısından analiz edilen özelliklerdeki değerleri veya aralıkları ifade eder. Örneğin, bir Medeni Durum özelliği eğitim verilerinde dört olası gruba sahip olabilir: Evli, Boşanmış, Ayrılmış veya Dul.
-
Zaman serisi deneylerinde, "gruplar" uyumlu özelliklerin belirli değerleri için hedef sonuçların izlenmesini sağlayan işlevselliği ifade eder. Bu sayfada, bu gruplara "zaman serisi grupları" denir. Bu gruplar hakkında daha fazla bilgi için Gruplar bölümüne bakın.
Sınırlamalar
-
Şunlar için sapma algılamayı etkinleştiremezsiniz:
-
Hedef özellik.
-
Serbest metin özellikleri (özellik türü kategorik olarak değiştirilse bile).
-
Zaman serisi deneylerinde tarih dizini olarak kullanılan tarih özellikleri.
-
Otomatik tasarlanmış tarih özellikleri. Bu özellikler üzerinde yanlılık algılaması çalıştırabilirsiniz, ancak bunları bağımsız olarak etkinleştirmezsiniz. Bunun yerine, önyargı tespiti için üst tarih özelliğini etkinleştirin ve otomatik olarak tasarlanmış tarih özelliklerinin eğitim için dahil edildiğinden emin olun.
-