Model sürümlerini inceleme ve iyileştirme
Model eğitiminin ilk sürümü tamamlandıktan sonra, ortaya çıkan model metriklerini analiz edin ve ihtiyacınız olan sonuçları elde edene kadar deneyin yeni sürümlerini yapılandırın.
Deney sürümünü çalıştırdığınızda, ortaya çıkan model metriklerini analiz edebileceğiniz model görünümüne yönlendirilirsiniz. İstediğiniz zaman şema veya veri görünümüne geçiş yapabilirsiniz. Model görünümüne dönmeniz gerektiğinde model görünümü simgesine tıklayın.
Model metrikleri tablosundaki tüm metrikler dolduğunda ve en iyi performans gösteren modelin yanında bir kupa simgesi göründüğünde eğitimin ilk sürümünün bittiğini anlayacaksınız.
Modeli analiz etme
Model görünümünde, en iyi performans gösteren algoritmanın bir kupa simgesiyle puanlandırıldığını görüyoruz. Bu, modelin, F1 puanına göre en iyi performansı gösteren model olduğunu belirtir.
Aşağıdakileri yapın:
-
Tablonun sağ üstünde, sütun seçici düğmesine tıklayın. Burada, sorunumuza ilişkin mevcut tüm metrikleri görüntüleyebilir ve gerekirse metrikleri ekleyebilir veya çıkarabilirsiniz. Tabloda görünmesini istediğiniz tüm metrikleri seçin veya varsayılan metrikleri bırakın.
-
Model metrikleri tablosunda Algoritma filtre açılır listesine tıklayın ve en iyi performansı gösteren modele karşılık gelen algoritmayı seçin.
-
Eğitim verisi metriklerini göster seçeneğini açın.
Şimdi çapraz doğrulama eğitiminden elde edilen metrikleri görebilir ve bunları bekletme metrikleriyle karşılaştırabilirsiniz. Her bekletme metriği sütunu için, eğitim verilerinden eşdeğer metriğe karşılık gelen bir "eğitim" sütunu vardır.
-
Filtreleri temizle seçeneğine tıklayın ve Eğitim verisi metriklerini göster seçeneğini tekrar kapatın.
-
F1 sütun üst bilgisine tıklayarak modelleri performansa göre (en yüksekten en düşüğe) sıralayın. Düşük performanslı algoritmaları hariç tutabilir veya sonraki eğitim yinelemesinde daha hızlı sonuç almak için en iyi algoritmaya odaklanabilirsiniz. Bir sonraki bölümde 3. sürümü yapılandırırken bunu ele alacağız.
-
Seçilen modelin görselleştirmelerini görmek için aşağıdaki metrikler tablosuna gidin.
-
Deney yapılandırması bölmesini genişletmek için veya Yapılandırmayı görüntüle seçeneğine tıklayın.
-
Bir sonraki deney sürümünün taslağını oluşturmak için Yeni sürüm'e tıklayın.
-
Permutation importance grafiğinde ve Deney yapılandırma bölmesindeki Özellikler listesinde, modelin bu ilk yinelemesinin, çok fazla ölçüde DaysSinceLastService özelliğine bağımlı olduğunu ve bu özelliğe kıyasla diğer özelliklerin hemen hemen hiç önemi olmadığını görüyoruz.
Bu dengesizlik ve modellerin aşırı derecede yüksek performansı bir sorunun işareti olarak yorumlanmalıdır. Bu örnekte veri toplama aşamasında, aboneliğini iptal müşterilerin oluşturduğu son hizmet kaydı üzerinden geçen günleri saymayı durdurmayla ilgili hiçbir mantıksal sınır belirtilememiş. Bu nedenle model, son hizmet kaydının üzerinden geçen çok sayıda günü, Churned alanındaki yes değeriyle ilişkilendirmeyi öğrenmiş.
Gerçek bir senaryoda model, yalnızca tahminin yapıldığı tarihe kadar olan bilgilere sahip olacağından ancak bu alandaki gün sayısı ölçüm zamanından sonraki süre boyunca da toplandığı için bu bir veri sızıntısı örneğidir. Veri sızıntısı hakkında daha fazla bilgi için bkz. Veri sızıntısı.
Sonuç modellerde eğriliğe neden olduğundan "sızıntı"ya neden olan DaysSinceLastService özelliğini deney yapılandırmasından kaldırmamız gerekir. Gerçek dünyadaki bir senaryoda, sonuçta elde edilen modelin doğru bir şekilde eğitildiğinden emin olmak için, model oluşturulmadan önce veri kalitesinin ve mantığının kapsamlı bir incelemeden geçirilmesi gerektiğini unutmayın.
Bir sonraki bölümde 2. sürümü yapılandırırken bu sorunu gidereceğiz.
Sürüm 2'yi yapılandırma ve çalıştırma
Bu veri sızıntısı sorunu düzeltildikten sonra model eğitiminin çoğu değişeceğinden, herhangi bir iyileştirmeyi tamamlamadan önce yeni bir sürüm yapılandıralım.
Aşağıdakileri yapın:
-
Önceki bir adımdan, v2'yi yapılandırmak için açılmış Deney yapılandırma bölmesine zaten sahipsiniz.
-
Deney yapılandırması bölmesindeki Özellikler bölümünde, DaysSinceLastService onay kutusunu temizleyin.
-
Çalıştır v2 seçeneğine tıklayın.
Sürüm 3'ü yapılandırma ve çalıştırma
Deneyin ikinci sürümünün çalışması tamamlandıktan sonra metrik tablosunda en iyi performans gösteren v2 modelinin (bir kupa simgesiyle işaretlenmiştir) yanındaki onay kutusunu tıklayın. Bu, sayfayı ilgili modelin metrikleriyle yeniler.
Model metrikleri tablosunun üzerinde Sürüm filtresi açılır listesine tıklayın ve 2 öğesini seçin. Bu, sadece v2 modeli metriklerine odaklanmanıza izin verir.
Veri sızıntısının giderilmesinden bu yana önemli özellikler listesinin önemli ölçüde değiştiğini göreceksiniz. En iyi performansı gösteren model, v1 için en iyi performansı gösteren modelden farklı bir algoritma kullanıyor da olabilir.
Aşağıdakileri yapın:
-
Permutation importance grafiğine bakın. Diğer özelliklere kıyasla model üzerinde daha az etki sağlayan özellikler olabilir. Bu kullanım durumu için az değer içerirler ve istatistiksel gürültü olarak görülebilirler. Bunun model puanlarını iyileştirip iyileştirmediğini görmek için bu özelliklerden bazılarını kaldırmayı deneyebilirsiniz.
-
Deney yapılandırması bölmesini genişletmek için veya Yapılandırmayı görüntüle seçeneğine tıklayın.
-
Bir sonraki deney sürümünün taslağını oluşturmak için Yeni sürüm'e tıklayın.
-
Deney yapılandırması bölmesindeki Özellikler'in altında, model üzerinde hiç etkisi olmayan veya çok az etkisi olan en az bir özelliğin onay kutusundaki seçimi kaldırın.
-
Model metrikleri tablosuna bakın. Düşük performanslı bazı algoritmaları hariç tutabilir veya sonraki eğitim yinelemesinde daha hızlı sonuç almak için en iyi algoritmaya odaklanabilirsiniz.
-
Deney yapılandırması bölmesindeki Algoritmalar bölümünde, düşük performanslı birkaç algoritmanın onay kutusunu temizleyebilirsiniz.
-
Çalıştır v3 seçeneğine tıklayın.
Deney sürümlerini karşılaştırma
Model metriği tablosunda Filtreleri temizle'ye tıklayın.
v3 çalıştıktan sonra metriklerini görüntülemek için en iyi performansı gösteren v3 modelinin yanındaki onay kutusuna tıklayın.
Daha fazla model filtresi'ne tıklayın ve En iyi performansı gösterenler filtresini seçin. Deneyin her yinelemesinde en iyi performans gösterenlerin metriklerini görebilirsiniz.
Eğitimin ilk sürümü en yüksek puanlarla sonuçlandı. Ancak bu metrikler, veri sızıntısı sorunundan kaynaklanan, performansın oldukça abartılı ve gerçekçi olmayan tahmin oluşturucularıydı. v3'te, en iyi performans gösteren modelin F1 puanı, en iyi performans gösteren v2 modeline göre arttı.
Gerçek dünyaya uygun senaryoda, özel kullanım durumunuz için mümkün olan en iyi modele sahip olduğunuzdan emin olmak üzere modelinizi dağıtmadan önce bu iyileştirme adımlarını gerektiği kadar tekrarlamanız önemlidir.
Bu eğitimde, modelinizi dağıtmayla ilgili bir sonraki bölüme geçin.