Modelleri inceleme ve iyileştirme
Model eğitiminin ilk sürümü tamamlandıktan sonra, ortaya çıkan model metriklerini analiz edin ve ihtiyacınız olan sonuçları elde edene kadar deneyin yeni sürümlerini yapılandırın.
Deney sürümünü çalıştırdığınızda, ortaya çıkan model metriklerini analiz etmeye başlayabileceğiniz Modeller sekmesine yönlendirilirsiniz. Veriler sekmesine giderek Şema görünümüne ve Veri görünümüne erişebilirsiniz. Karşılaştır ve Analiz sekmelerinde daha ayrıntılı analiz yapılabilir.
Model metrikleri tablosundaki tüm metrikler dolduğunda ve en iyi performans gösteren modelin yanında bir kupa simgesi göründüğünde eğitimin ilk sürümünün bittiğini anlayacaksınız.
v1'den modelleri analiz etme
Modeller sekmesine geri dönün. Model metrikleri tablosunda en üstteki model bir kupa simgesiyle puanlanır. Bu, modelin, F1 puanına göre en iyi performansı gösteren model olduğunu belirtir.
Modeller sekmesine geri dönün. Model metrikleri tablosunda en üstteki model bir kupa simgesiyle puanlanır. Bu, modelin, F1 puanına göre en iyi performansı gösteren model olduğunu belirtir.
F1 sütun üst bilgisine tıklayarak modelleri performansa göre (en yüksekten en düşüğe) sıralayın. Düşük performanslı algoritmaları hariç tutabilir veya sonraki eğitim yinelemesinde daha hızlı sonuç almak için en iyi algoritmaya odaklanabilirsiniz. Bir sonraki bölümde 3. sürümü yapılandırırken bunu ele alacağız.
Veri sızıntısını tespit etme
Sayfanın sağ tarafındaki Model içgörüleri grafiklerine bakın. Bu grafikler size, model performansının yanı sıra her özelliğin göreli önemine dair bir gösterge verir.
Permutation importance grafiğinde ve Deney yapılandırma bölmesindeki Özellikler listesinde, modelin bu ilk yinelemesinin, çok fazla ölçüde DaysSinceLastService özelliğine bağımlı olduğunu ve bu özelliğe kıyasla diğer özelliklerin hemen hemen hiç önemi olmadığını görüyoruz.
Bu dengesizlik ve modellerin aşırı derecede yüksek F1 performansı puanları bir sorunun işareti olarak yorumlanmalıdır. Bu örnekte veri toplama aşamasında, aboneliğini iptal müşterilerin oluşturduğu son hizmet kaydı üzerinden geçen günleri saymayı durdurmayla ilgili hiçbir mantıksal sınır belirtilememiş. Bu nedenle model, son hizmet kaydının (yıllar önce iptal eden müşteriler içindir) üzerinden geçen çok sayıda günü, Churned alanındaki yes değeriyle ilişkilendirmeyi öğrenmiş.
Gerçek bir senaryoda model, yalnızca tahminin yapıldığı tarihe kadar olan bilgilere sahip olacağından ancak bu alandaki gün sayısı ölçüm zamanından sonraki süre boyunca da toplandığı için bu bir veri sızıntısı örneğidir. Bu sorun, veri sızıntısı biçiminde hedef sızıntısı olarak bilinir. Veri sızıntısı hakkında daha fazla bilgi için bkz. Veri sızıntısı.
Sonuç modellerde eğriliğe neden olduğundan "sızıntı"ya neden olan DaysSinceLastService özelliğini deney yapılandırmasından kaldırmamız gerekir. Gerçek dünyadaki bir senaryoda, sonuçta elde edilen modelin doğru bir şekilde eğitildiğinden emin olmak için, model oluşturulmadan önce veri kalitesinin ve mantığının kapsamlı bir incelemeden geçirilmesi gerektiğini unutmayın.
2. sürümü yapılandırırken bu sorunu gidereceğiz.
Sürüm 2'yi yapılandırma ve çalıştırma
Veri sızıntısını gidermek için yeni bir sürüm yapılandıralım.
Aşağıdakileri yapın:
Deney yapılandırması panelini genişletmek için Yapılandırmayı görüntüle seçeneğine tıklayın.
Yeni sürüm'e tıklayın.
Panelde Özellikler altında DaysSinceLastService onay kutusunun işaretini kaldırın.
Çalıştır v2 seçeneğine tıklayın.
v2'den modelleri analiz etme
Deneyin ikinci sürümünün çalışması tamamlandıktan sonra Model metrikleri tablosunda en iyi performans gösteren 2. sürümü modelinin (bir kupa simgesiyle işaretlenmiştir) yanındaki onay kutusunu tıklayın. Bu, sayfayı ilgili modelin metrikleriyle yeniler.
Eğitim ve bekletme metriklerini karşılaştırma
Şimdi ek metrikleri görüntüleyebilir ve çapraz doğrulama eğitiminden elde edilen metrikleri bekletme metrikleriyle karşılaştırabilirsiniz.
Aşağıdakileri yapın:
Deneyde Karşılaştır sekmesine geçiş yapın.
Eklenmiş bir analiz açılır. Karşılaştırmalı model analizinizi ayrıntılı olarak incelemek ve yeni içgörüler elde etmek için etkileşimli arayüzü kullanabilirsiniz.
Analizin sağ tarafındaki Sayfalar panelinde Details sayfasına geçiş yapın.
Model Metrics tablosuna bakın. Diğer bilgilerin yanı sıra F1 gibi model puanlama metrikleri gösterir.
Eğitimin 1. sürümü, hedef sızıntısından etkilendi, bu nedenle 2. sürüme odaklanalım. 1 değerini seçmek için sayfanın sağ tarafındaki Version filtre bölmesini kullanın.
Columns to show bölümünde, tabloya sütun eklemek veya tablodan sütun çıkarmak için filtre bölmesini kullanın.
Açılır listede ek metrikler ekleyin. Her metrik için eğitim puanları, Train ile biten değerler olarak gösterilir. Tabloya biraz eğitim metriği ekleyin.
Şimdi çapraz doğrulama eğitiminden elde edilen F1 metriklerini görebilir ve bunları bekletme metrikleriyle karşılaştırabilirsiniz.
Düşük öneme sahip özellikleri tanımlama
Ardından, düşük permütasyon önemine sahip özellikler olup olmadığını kontrol etmeliyiz. Model üzerinde hiç etkisi olmayan veya çok az etkisi olan özellikler, tahmin doğruluğunu artırmak için kaldırılmalıdır.
Aşağıdakileri yapın:
Deneyde Modeller sekmesine geri dönün.
Permutation importance grafiğine bakın. Alt dört özellik StartMonth, DeviceType, CustomerTenure ve Territory, diğer özelliklere kıyasla modelimiz üzerinde daha az etki sağlar. Bu kullanım durumu için az değer içerirler ve istatistiksel gürültü olarak görülebilirler.
3. sürümde bunun model puanlarını iyileştirip iyileştirmediğini görmek için bu özellikleri kaldırabiliriz.
Düşük performanslı algoritmaları tespit etme
3. sürüm eğitiminden herhangi bir algoritmayı çıkarıp çıkaramayacağımızı görmek için Model metrikleri tablosuna da bakarız. Eğitimin sonraki yinelemelerde daha hızlı çalışması için modelleri geliştirirken düşük performanslı algoritmaları kaldırabiliriz.
Deneyde Modeller sekmesine geri dönün.
Model metrikleri tablosunda yalnızca 2. sürümden modelleri göstermek için Sürüm filtresini kullanın.
Her Algoritma için F1 puanlarına bakın. Belirli algoritmalar, diğerlerinden önemli ölçüde daha düşük puana sahip modeller oluşturuyorsa bir sonraki sürümde bu algoritmaları kaldırabiliriz.
Sürüm 3'ü yapılandırma ve çalıştırma
Aşağıdakileri yapın:
Deney yapılandırması panelini genişletmek için Yapılandırmayı görüntüle seçeneğine tıklayın.
Yeni sürüm'e tıklayın.
Panelde Özellikler altında StartMonth, DeviceType, CustomerTenure ve Territory onay kutularının işaretini kaldırın.
İsteğe bağlı olarak Algoritmalar'ı genişletebilir ve Gaussian Naive Bayes ile Lojistik Regresyon onay kutularının seçimini kaldırabilirsiniz.
Çalıştır v3 seçeneğine tıklayın.
3. sürümden modelleri analiz etme
3. sürüm çalıştıktan sonra Model metrikleri tablosundan Sürüm filtresini temizleyebilirsiniz. 3. sürümden en iyi performans gösteren modeli seçin.
Tüm sürümlerde modelleri hızlıca karşılaştıralım.
Eğitimin ilk sürümü en yüksek puanlarla sonuçlandı. Ancak bu metrikler, veri sızıntısı sorunundan kaynaklanan, performansın oldukça abartılı ve gerçekçi olmayan tahmin oluşturucularıydı. v3'te, en iyi performans gösteren modelin F1 puanı, en iyi performans gösteren v2 modeline göre arttı.
Daha önce keşfedildiği gibi, model puanlarını daha derinlemesine karşılaştırmak için Karşılaştır sekmesine geçiş yapabilirsiniz.
Belirli bir modele odaklanma
Analiz sırasında herhangi bir noktada bir modelin ayrıntılı analizini gerçekleştirebilirsiniz. Etkileşimli bir Qlik Sense deneyimiyle tahmin doğruluğu, özellik önemi ve özellik dağıtımını keşfedin.
Aşağıdakileri yapın:
En iyi performansa sahip 3. sürüm modeli seçiliyken Analiz sekmesine tıklayın.
Eklenmiş bir analiz açılır.
Model Overview sayfasıyla modelin tahmin doğruluğunu analiz edebilirsiniz. Analiz, seçimlerin gücüyle geliştirilir. Seçim yapmak için bir özelliğe veya tahmin edilen değere tıklayın. Eklenmiş analizdeki veriler, verileri filtrelemek için ayarlanır. Özelliğin etkisi ve tahmin doğruluğunun nasıl değiştiğini görüntülemek için belirli özellik değerleri ve aralıklarını ayrıntılı bir şekilde inceleyebilirsiniz.
Diğer sayfalara geçiş yaparak tahmin doğruluğu, özellik dağıtımı ve etki dağıtımı (SHAP) için görselleştirmeler görüntüleyebilirsiniz. Bu analiz içeriği şunları yapmanıza yardımcı olabilir:
Verilerdeki eğilimlere yön veren temel etkenleri ortaya çıkarın.
Belirli özellik ve toplulukların, tahmin edilen değerleri ve tahmin doğruluğunu nasıl etkilediğini tanımlayın.
Verilerdeki aykırı değerleri tanımlayın.
Sonraki adımlar
Gerçek dünyaya uygun senaryoda, özel kullanım durumunuz için mümkün olan en iyi modele sahip olduğunuzdan emin olmak üzere modelinizi dağıtmadan önce bu iyileştirme adımlarını gerektiği kadar tekrarlamanız önemlidir.
Bu eğitimde, modelinizi dağıtmayla ilgili bir sonraki bölüme geçin.