Ana içeriğe geç Tamamlayıcı içeriğe geç

Veri bekletme ve çapraz doğrulama

Tahmine dayalı analizde karşılaşılan en büyük zorluklardan biri, eğitilmiş bir modelin daha önce hiç görmediği verilerde nasıl performans göstereceğini bilmektir. Başka bir deyişle, model eğitim verilerini sadece ezberlemek yerine gerçek örüntüleri ne kadar iyi öğrendi? Veri bekletme ve çapraz doğrulama, modelinizin verileri yalnızca ezberlemediğinden, genelleştirilmiş örüntüleri gerçekten öğrendiğinden emin olmak için kullanılan iki etkili tekniktir.

Ezberleme ve genelleştirme karşılaştırması yapmak için modelleri test etme

Bir modelin gerçek dünyada ne kadar iyi performans göstereceği sorusu, modelin ezberleme veya genelleme yapıp yapmadığı sorusu ile eşdeğerdir. Ezberleme, geçmişte gerçekleşenleri kusursuz bir şekilde hatırlama becerisidir. Ezberleme yapan bir model ilk eğitimde yüksek puanlar alabilir ancak bu model yeni verilere uygulandığında tahmin doğruluğunda belirgin bir düşüş olur. Bunun yerine genelleştirme yapan bir model elde etmek isteriz. Genelleştirme, genel olarak görülen örüntüleri öğrenme ve uygulama becerisidir. Eğitim verisindeki asıl yaygın örüntüleri öğrenen genelleştirilmiş bir model, daha önce karşılaşmadığı yeni verilerle aynı kalite düzeyinde tahminler yapabilir.

Otomatik veri bekletme

Bekletme, rastgele seçilen verilerin eğitim sırasında modelden "gizlenmesi" ve ardından modele puan vermek için kullanılmasıdır. Bekletme tekniği, eğitimde kullanılmayan verilerde doğruluk metrikleri oluşturarak modelin gelecek tahminlerde nasıl performans göstereceğine dair bir simülasyon sunar. Modeli oluşturmuşuz, dağıtmışız ve yaptığı tahminleri gerçek sonuçlara göre (bu tahminleri gözlemlemek için beklemek zorunda kalmadan) izliyormuşuz gibi olur.

Veri kümesi, eğitim verisi ve bekletme verisi olarak ikiye ayrılır

Eğitim verisi ile bekletme verisinin oranı.

Çapraz doğrulama

Çapraz doğrulama uygulamasında bir veri kümesi, rastgele olarak belirli sayıda, eşit segmentlere (katlama adı verilen) ayrılır. Makine öğrenimi algoritması biri hariç diğer tüm katlamalarla eğitilir. Daha sonra çapraz doğrulama, her katlamayı, diğer tüm katlamalarla eğitilen bir modele göre test eder. Bu, eğitilen her modelin, verinin, daha önce hiç karşılaşmadığı bir segmentinde test edildiği anlamına gelir. Bu süreç, eğitim sırasında farklı bir katlama gizlenerek tekrarlanır ve her katlama tam olarak bir kez test olarak kullanılana ve her iki yinelemede bir eğitilene kadar test yapılır.

Eğitim verisi beş katlamaya ayrılır. Her yineleme sırasında farklı bir katlama, test verisi olarak kullanılmak üzere kenara ayrılır.

Eğitim verileri beş katlamaya ayrılır ve beş kez yinelenir.

Çapraz doğrulamadan elde edilen bir dizi test metriği, eğitilen modelin daha önce karşılaşmadığı verilerde ne kadar doğru tahminler yapacağına dair makul bir öngörü edinmenizi sağlar.

Otomatik bekletme ve çapraz doğrulama nasıl çalışır

AutoML, model performansını simüle etmek için model eğitimi sırasında beş katlamalı çapraz doğrulama tekniği kullanır. Model daha sonra ayrı bekletilen eğitim verisiyle test edilir. Bu işlem, farklı algoritmaların ne kadar iyi performans gösterdiğini değerlendirmenize ve karşılaştırma yapmanıza olanak sağlayan puan metrikleri oluşturur.

  1. Deneyinizin eğitimi başlamadan önce, veri kümenizde null olmayan hedef değer içeren tüm veriler rastgele karıştırılır. Veri kümenizin %20'si bekletme verisi olarak çıkarılır. Veri kümesinin geriye kalan %80'lik bölümü çapraz doğulama tekniği ile modeli eğitmek için kullanılır.

  2. Çapraz doğrulamaya hazırlamak için veri kümesi rastgele olarak beş parçaya (katlama) ayrılır. Daha sonra model, performansını test etmek amacıyla her seferinde verilerin farklı bir 5'te 1'lik bölümü "gizlenerek" beş kez eğitilir. Eğitim metrikleri çapraz doğrulama sırasında oluşturulur ve hesaplanan değerlerin ortalamasıdır.

  3. Eğitimden sonra model, bekletme verilerine uygulanır. Bekletme verileri, çapraz doğrulama verilerinin aksine eğitim sırasında model tarafından görülmediğinden modelin eğitim performansını doğrulamak için idealdir. Modelin bu son değerlendirme aşamasında bekletme metrikleri oluşturulur.

Model performansını analiz etmede kullanılan metrikler hakkında daha fazla bilgi edinmek için bkz. Modelleri inceleme.

Bir model oluşturmak için, beş katlamalı çapraz doğrulama sırasında eğitim verileri kullanılır. Eğitimden sonra model, bekletme verileri kullanılarak değerlendirilir.

Eğitim verileri çapraz doğrulamada ve modelin son değerlendirmesini yapmak üzere bekletme verilerinde kullanılır.

Daha fazla bilgi

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız, bize bildirin, düzeltelim!