Veri bekletme ve çapraz doğrulama

Tahmine dayalı analizde karşılaşılan en büyük zorluklardan biri, eğitilmiş bir modelin daha önce hiç görmediği verilerde nasıl performans göstereceğini bilmektir. Başka bir deyişle, model eğitim verilerini sadece ezberlemek yerine gerçek örüntüleri ne kadar iyi öğrendi? Veri bekletme ve çapraz doğrulama, modelinizin verileri yalnızca ezberlemediğinden, genelleştirilmiş örüntüleri gerçekten öğrendiğinden emin olmak için kullanılan iki etkili tekniktir.

Deneyinizi yapılandırırken eğitim verilerinin ve bekletme verilerinin rastgele mi yoksa zamana duyarlı modeller oluşturmak için kullanılan özel bir yöntemle mi bölüneceğini seçebilirsiniz.

Ezberleme ve genelleştirme karşılaştırması yapmak için modelleri test etme

Bir modelin gerçek dünyada ne kadar iyi performans göstereceği sorusu, modelin ezberleme veya genelleme yapıp yapmadığı sorusu ile eşdeğerdir. Ezberleme, geçmişte gerçekleşenleri kusursuz bir şekilde hatırlama becerisidir. Ezberleme yapan bir model ilk eğitimde yüksek puanlar alabilir ancak bu model yeni verilere uygulandığında tahmin doğruluğunda belirgin bir düşüş olur. Bunun yerine genelleştirme yapan bir model elde etmek isteriz. Genelleştirme, genel olarak görülen örüntüleri öğrenme ve uygulama becerisidir. Eğitim verisindeki asıl yaygın örüntüleri öğrenen genelleştirilmiş bir model, daha önce karşılaşmadığı yeni verilerle aynı kalite düzeyinde tahminler yapabilir.

Otomatik veri bekletme

Bekletme, verilerin eğitim sırasında modelden "gizlenmesi" ve ardından modele puan vermek için kullanılmasıdır. Bekletme tekniği, eğitimde kullanılmayan verilerde doğruluk metrikleri oluşturarak modelin gelecek tahminlerde nasıl performans göstereceğine dair bir simülasyon sunar. Modeli oluşturmuşuz, dağıtmışız ve yaptığı tahminleri gerçek sonuçlara göre (bu tahminleri gözlemlemek için beklemek zorunda kalmadan) izliyormuşuz gibi olur.

Qlik Predict içinde, bekletme verilerini seçmek için iki yöntem vardır: varsayılan yöntem ve zamana dayalı yöntem.

Bekletme verilerini seçmek için varsayılan yöntem

Zamana duyarlı model eğitimini açmadığınız sürece, model eğitimi başlamadan önce bekletme verileri rastgele seçilir.

Varsayılan bekletme ve çapraz doğrulama yönteminde eğitim verilerinin ve tutma verilerinin oranı — Varsayılan olarak veri kümesi, eğitim verisi ve bekletme verisi olacak şekilde rastgele ikiye ayrılır

Bekletme verilerini seçmek için zamana dayalı yöntem

Zamana dayalı yöntemde, tüm eğitim veri kümesi önce seçtiğiniz bir tarih dizini sütununa göre sıralanır. Sıralamadan sonra, bekletme verileri eğitim verilerinin geri kalanından ayrılır. Bu bekletme verileri, seçtiğiniz dizinle ilgili en son verileri içerir.

Zaman tabanlı yöntem, zaman farkındalıklı modeller ve zaman serisi modelleri eğitilirken kullanılır. Bu model seçenekleri hakkında daha fazla bilgi için bk. Zaman kullanan modeller oluşturma ve Zaman serisi denemeleriyle çalışma.

Çapraz doğrulama

Çapraz doğrulama, bir makine öğrenimi modelinin henüz görmediği veriler için gelecekteki değerleri ne kadar iyi tahmin edebileceğini test eden bir süreçtir. Çapraz doğrulamada, bir model için eğitim verileri katlama adı verilen bir dizi bölüme ayrılır. Eğitimin her yinelemesi sırasında, model bir veya daha fazla katlama ile eğitilir ve katlamalardan en az birinin eğitim için kullanılması her zaman engellenir. Her yinelemeden sonra, eğitimde kullanılması engellenen katlamalardan biri kullanılarak performans değerlendirilir.

Çapraz doğrulamadan elde edilen bir dizi test metriği, eğitilen modelin daha önce karşılaşmadığı verilerde ne kadar doğru tahminler yapacağına dair makul bir öngörü edinmenizi sağlar.

Qlik Predict içinde, çapraz sorgulama için iki yöntem vardır: varsayılan yöntem ve zamana dayalı yöntem.

Varsayılan çapraz doğrulama

Eğitimi zamana dayalı çapraz doğrulama kullanacak şekilde yapılandırmadığınız sürece Qlik Predict, varsayılan çapraz doğrulama yöntemini kullanır. Varsayılan çapraz doğrulama yöntemi, bir zaman serisi boyutuna dayanmayan modeller için uygundur, yani, modelin eğitim verilerindeki belirli bir zamana dayalı sütunu dikkate alarak tahmin yapmasına ihtiyacınız yoktur.

Varsayılan çapraz doğrulama yönteminde veri kümesi, rastgele olarak belirli sayıda, eşit, katlama adı verilen segmentlere ayrılır. Makine öğrenimi algoritması, modeli biri hariç diğer tüm katlamalarla eğitir. Daha sonra çapraz doğrulama, her katlamayı, diğer tüm katlamalarla eğitilen bir modele göre test eder. Bu, eğitilen her modelin, verinin, daha önce hiç karşılaşmadığı bir segmentinde test edildiği anlamına gelir. Bu süreç, eğitim sırasında farklı bir katlama gizlenerek tekrarlanır ve her katlama tam olarak bir kez test olarak kullanılana ve her iki yinelemede bir eğitilene kadar test yapılır.

Otomatik bekletme ve varsayılan çapraz doğrulama

Varsayılan olarak Qlik Predict, model performansını simüle etmek için model eğitimi sırasında beş katlamalı çapraz doğrulama tekniği kullanır. Model daha sonra ayrı bekletilen eğitim verisiyle test edilir. Bu işlem, farklı algoritmaların ne kadar iyi performans gösterdiğini değerlendirmenize ve karşılaştırma yapmanıza olanak sağlayan puan metrikleri oluşturur.

Deneyinizin eğitimi başlamadan önce, veri kümenizde null olmayan hedef değer içeren tüm veriler rastgele karıştırılır. Veri kümenizin %20'si bekletme verisi olarak çıkarılır. Veri kümesinin geriye kalan %80'lik bölümü çapraz doğulama tekniği ile modeli eğitmek için kullanılır.
Çapraz doğrulamaya hazırlamak için veri kümesi rastgele olarak beş parçaya (katlama) ayrılır. Daha sonra model, performansını test etmek amacıyla her seferinde verilerin farklı bir 5'te 1'lik bölümü "gizlenerek" beş kez eğitilir. Eğitim metrikleri çapraz doğrulama sırasında oluşturulur ve hesaplanan değerlerin ortalamasıdır.
Eğitimden sonra model, bekletme verilerine uygulanır. Bekletme verileri, çapraz doğrulama verilerinin aksine eğitim sırasında model tarafından görülmediğinden modelin eğitim performansını doğrulamak için idealdir. Modelin bu son değerlendirme aşamasında bekletme metrikleri oluşturulur.

Model performansını analiz etmede kullanılan metrikler hakkında daha fazla bilgi edinmek için bkz. Modelleri inceleme.

Varsayılan bekletme ve çapraz doğrulama yöntemini gösteren ve beş aşamalı bir süreci vurgulayan diyagram. — Varsayılan yöntemde bir model oluşturmak için, beş katlamalı çapraz doğrulama sırasında eğitim verileri kullanılır. Eğitimden sonra model, bekletme verileri kullanılarak değerlendirilir.

Zamana dayalı çapraz doğrulama

Zamana dayalı çapraz doğrulama, bir zaman serisi boyutu boyunca verileri tahmin etmek üzere modelinizi eğitmek için uygundur. Örneğin, geçmiş satış verilerini içeren bir veri kümesi ile şirketinizin gelecek ayki satışlarını tahmin etmek istiyorsunuz. Zamana dayalı çapraz doğrulamayı kullanmak için eğitim verilerinizde tarih veya zaman damgası bilgisi içeren bir sütun olmalıdır.

Zamana dayalı çapraz doğrulama, zamana duyarlı modeller oluşturmak için kullanılır. Deney yapılandırma panelindeki Model optimizasyonu altında zamana duyarlı eğitimi etkinleştirin. Daha fazla bilgi için şuraya bakın: Deneyleri yapılandırma.

Zamana dayalı çapraz doğrulama ile modeller, gelecek tarihler için verileri tahmin ettiklerini daha iyi anlayacak şekilde eğitilir.

Varsayılan yöntem gibi, zamana dayalı çapraz doğrulama da eğitim verilerinin hem eğitim hem de test için kullanılan katlamalara ayrılmasını içerir. Her iki yöntemde de modeller bir dizi yineleme üzerinden eğitilir. Ancak zamana dayalı yöntemin varsayılan yöntemden birkaç farkı vardır:

Eğitim verileri, seçtiğiniz tarih dizini boyunca katlamalar halinde sıralanır ve düzenlenir. Buna karşılık, varsayılan çapraz doğrulama, herhangi bir katlamaya hangi satırların dahil edileceğini rastgele seçer.
Eğitim verisi olarak kullanılan katlama sayısı, eğitimin her yinelemesinde kademeli olarak artar. Bu, ilk yineleme sırasında yalnızca ilk (en eski) katlamanın kullanılabileceği ve sonraki yinelemelerin daha yeni veriler de dahil olmak üzere kademeli olarak daha büyük miktarda eğitim verisi içereceği anlamına gelir. Test verisi olarak kullanılan katlama her yinelemede değişir.

Bu, her yinelemede eğitim ve test bölmeleri için sabit bir veri hacmi kullanan varsayılan çapraz doğrulama yöntemiyle tezat oluşturmaktadır (yani, eğitim için dört katlama ve test için bir katlama).
Eğitim veri kümesinin tamamı seçtiğiniz dizine göre sıralandığından, eğitilen modeli test etmek için kullanılan veriler her zaman modeli eğitmek üzere kullanılan verilerden daha yeni veya onlarla eşit derecede yenidir. Model üzerinde son performans testlerini gerçekleştirmek için kullanılan otomatik bekletme verileri her zaman eğitim veri kümesinin geri kalanından daha yenidir veya onunla eşit derecede yenidir.

Buna karşılık, varsayılan çapraz doğrulama, modellerin eğitim verilerinden daha eski veriler üzerinde test edilmesine neden olarak veri sızıntısına yol açabilir.

Otomatik bekletme ve zamana dayalı çapraz doğrulama

Bu prosedür, zamana duyarlı modellerin nasıl eğitildiğini gösterir. Bu süreç, varsayılan çapraz doğrulama sürecine kıyasla farklılıklar ve benzerlikler içermektedir.

Veri kümenizdeki tüm veriler, seçtiğiniz tarih dizini boyunca sıralanır. Bu, eğitim verilerini ve bekletme verilerini içerir.
Deneyinizin eğitimi başlamadan önce, veri kümenizin %20'si bekletme verisi olarak çıkarılır. Bu bekletilen veriler, veri kümesinin geri kalanından daha yeni veya onlarla eşit derecede yenidir. Veri kümesinin geriye kalan %80'lik bölümü çapraz doğulama tekniği ile modeli eğitmek için kullanılır.
Çapraz doğrulamaya hazırlanmak için sıralanan eğitim verileri, bir dizi katlamaya ayrılır. Seçtiğiniz tarih dizinine göre ilk katlama en eski kayıtları, son katlama ise en yeni kayıtları içerecektir.
Model daha sonra beş yineleme üzerinden eğitilir. Her yinelemede, eğitim verisi miktarı kademeli olarak artırılır. Her yinelemede, dahil edilen eğitim verilerinin güncelliği de artırılır. Eğitim metrikleri çapraz doğrulama sırasında oluşturulur ve hesaplanan değerlerin ortalamasıdır.
Eğitimden sonra model, bekletme verilerine uygulanır. Bekletme verileri, eğitim sırasında model tarafından görülmediğinden modelin eğitim performansını doğrulamak için idealdir. Modelin bu son değerlendirme aşamasında bekletme metrikleri oluşturulur.

Zaman serisi modelleri için holdout ve çapraz doğrulama

Zaman serisi modeli, zamana özgü tahminler gerçekleştiren belirli bir model türüdür. Bu modellerin eğitim süreci, diğer modellerle karşılaştırıldığında bazı benzerlikler ve farklılıklar gösterir:

Diğer modellerde olduğu gibi, eğitim veri kümesi hala yüzde 80 (eğitim) ve yüzde 20 (test) olarak ayrılmıştır. Zamana dayalı bölme yöntemi kullanılır.

Test kümesi, model performansını değerlendirmek için kullanılır. Bu küme, deneydeki Analiz sekmesinde gösterilir; burada modelin eğitim penceresinin ötesinde ne kadar iyi genelleştiğini keşfedebilirsiniz.
Beş katlı çapraz doğrulama kullanılmaz. Veriler bir sinir ağı üzerinden geçirilirken, eğitim sürecinin kendisi sırasında bazı doğrulama gerçekleştirilir.

Qlik Predict ile zaman serisi tahmini hakkında daha fazla bilgi için bkz. Zaman serisi denemeleriyle çalışma.

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız lütfen bize bildirin!

Geri bildiriminizi buradan iletin