Ana içeriğe geç Tamamlayıcı içeriğe geç

Veri sızıntısı

Veri sızıntısı, makine öğrenimi algoritmasını eğitmek için kullanılan verilerin, tahmin etmeye çalıştığınız verileri içermesidir. Bu durum, modelin eğitimde, gerçek dünyada göstereceğinden daha iyi performans göstermesine ve buna bağlı olarak modelin performansı hakkında yanıltıcı bir güvence ortaya çıkmasına neden olur. Güvenilir tahminler elde etmek için veri sızıntısının nasıl tespit edileceğini ve nasıl önleneceğini öğrenin.

Genel olarak veri sızıntısının nedeni aşağıdakilerden en az biridir:

  • Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin etmeye çalıştığınız hedef değişkeni türetmek için kullanılabildiği durumlarda. Örneğin, hedefiniz bir Sales alanı ve özelliklerinizden biri Sales kısmından hesaplanan Sales Tax alanı.

  • Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin anında bilinmesi mümkün olmayan bilgileri içerdiği durumlarda.

Aşağıdaki tabloda Stage sütunu, tahmin etmek istediğimiz Stage (Binary) sütununun çoğaltılmasıyla elde edilmiştir. Stage sütununu eğitim veri kümesine dahil ettiğimizde, tahmin edilecek sonuç için yanıt sağlamış oluruz ve bu da modelimizin yüksek puan almasına yola açar.

Hedef olan Stage (Binary) sütunu hakkında bilgi barındıran Stage başlıklı "sızıntı sütunu"nu içeren tablo
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Hedef sızıntısı

Hedef sızıntısı bir veri sızıntısı biçimidir. Hedef sızıntısı, özellik verilerinin, tahminler için kullanılabilen hedef verilere referans verdiği durumlarda gerçekleşir. Referanslar veya "sızıntılar" doğrudan ya da dolaylı olabilir.

Akıllı model optimizasyonu ile AutoML, hedef sızıntısını tespit eder ve modellerin içine girmesini engeller. Hedef sızıntısı gösteren özellikler otomatik olarak tespit edilir ve model eğitiminden kaldırılır. Akıllı model optimizasyonu hakkında daha fazla bilgi için bkz. Akıllı model optimizasyonu.

Veri sızıntısını tespit etme

Veri sızıntısını tespit etmek için "Tahmin yapmak istediğiniz anda, kayıtlarla ilgili bu bilgilerin aynısına sahip olacak mısınız?" veya "Kayıt, 30 gün sonra aynı kalacak mı?" gibi soruları sormanızı öneririz. Eğitim veri kümenizdeki tüm verilerin, iş sorunuzdaki süre kısıtlamasına bağlı olması gerektiğini unutmayın.

Modeli eğittiğinizde model metriklerinde şu ipuçlarını arayabilirsiniz.

  • Yüksek puanlar: Puan gerçekten yüksek mi? Örneğin, F1 puanı 85'ten yüksek mi?

  • Özelliğin önemi: Bir özellik, diğer her şeyden çok daha fazla önemli mi?

  • Bölme puanı: Bölme puanı, çapraz doğrulama puanından çok daha düşük mü?

Tabloda veri sızıntısına neden olabilecek sık karşılaşılan özelliklerin örnekleri gösterilmektedir.

İş kullanımı senaryosu Hedef

Sızıntı potansiyeline sahip özellikler

Satış fırsatı kapatılacak mı?

Kapalı (Evet veya Hayır)

Aşama, kapatılma tarihi, fatura ayrıntıları, ödenen komisyon ücretleri

Gelecekteki bir işlem tutarını tahmin etme

Sonraki işlemin tutarı

Vergiler, sipariş ayrıntıları

Potansiyel müşteri, fırsata dönüşecek mi?

Dönüşüm (Evet veya Hayır)

Fırsat ayrıntıları, dönüşme tarihi

Müşteriyi kaybedecek miyiz?

Müşteri kaybedildi (Evet veya Hayır)

Kaybetme neden, kaybetme tarihi, statik müşteri olma süresi, müşteri ilgi düzeyi

Çalışan gönüllü olarak işten ayrılacak mı?

İşten ayrılma (Evet veya Hayır)

Çıkış mülakatı ayrıntıları, işten ayrılma tarihi, istifa dilekçesi bilgileri

Veri sızıntısını önleme

Veri sızıntısını önlemenin en iyi yolu, iyi bir iş sorusu ve veri kümesi oluşturmak için yapısal çerçeveyi kullanmaktır. Daha fazla bilgi için bkz. Makine öğrenimi sorularını tanımlama.

İpucu notuModel eğitiminde kullanılmaması gereken sızıntı sütununu belirlediyseniz bunu veri kümesinde tutmaya devam edebilirsiniz. Bu özelliği, makine öğrenimi deneyinizde eğitim verilerinizden hariç tutmanız yeterlidir.
İLGİLİ ÖĞRENME KAYNAKLARI:

Daha fazla bilgi

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız, bize bildirin, düzeltelim!