Ana içeriğe geç Tamamlayıcı içeriğe geç

Veri sızıntısı

Veri sızıntısı, makine öğrenimi algoritmasını eğitmek için kullanılan verilerin, tahmin etmeye çalıştığınız verileri içermesidir. Bu durum, modelin eğitimde, gerçek dünyada göstereceğinden daha iyi performans göstermesine ve buna bağlı olarak modelin performansı hakkında yanıltıcı bir güvence ortaya çıkmasına neden olur. Güvenilir tahminler elde etmek için veri sızıntısının nasıl tespit edileceğini ve nasıl önleneceğini öğrenin.

Veri sızıntısı iki biçimde görülür:

  • Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin etmeye çalıştığınız hedef değişkeni türetmek için kullanılabildiği durumlarda.

  • Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin anında bilinmesi mümkün olmayan bilgileri içerdiği durumlarda.

Aşağıdaki tabloda Aşama sütunu, tahmin etmek istediğimiz Aşama (İkili) sütunun çoğaltılmasıyla elde edilmiştir. Aşama sütununu eğitim veri kümesine dahil ettiğimizde, tahmin edilecek sonuç için yanıt sağlamış oluruz ve bu da modelimizin yüksek puan almasına yola açar.

Hedef olan Aşama (İkili) sütunu hakkında bilgi barındıran Aşama başlıklı "sızıntı sütunu"nu içeren tablo

Örnek veriler içeren tablo.

Veri sızıntısını tespit etme

Veri sızıntısını tespit etmek için "Tahmin yapmak istediğiniz anda, kayıtlarla ilgili bu bilgilerin aynısına sahip olacak mısınız?" veya "Kayıt, 30 gün sonra aynı kalacak mı?" gibi soruları sormanızı öneririz. Eğitim veri kümenizdeki tüm verilerin, iş sorunuzdaki süre kısıtlamasına bağlı olması gerektiğini unutmayın.

Modeli eğittiğinizde model metriklerinde şu ipuçlarını arayabilirsiniz.

  • Yüksek puanlar: Puan gerçekten yüksek mi? Örneğin, F1 puanı 85'ten yüksek mi?

  • Özelliğin önemi: Bir özellik, diğer her şeyden çok daha fazla önemli mi?

  • Bölme puanı: Bölme puanı, çapraz doğrulama puanından çok daha düşük mü?

Tabloda veri sızıntısına neden olabilecek sık karşılaşılan özelliklerin örnekleri gösterilmektedir.

İş kullanımı senaryosu Hedef

Sızıntı potansiyeline sahip özellikler

Satış fırsatı kapatılacak mı?

Kapalı (Evet veya Hayır)

Aşama, kapatılma tarihi, fatura ayrıntıları, ödenen komisyon ücretleri

Gelecekteki bir işlem tutarını tahmin etme

Sonraki işlemin tutarı

Vergiler, sipariş ayrıntıları

Potansiyel müşteri, fırsata dönüşecek mi?

Dönüşüm (Evet veya Hayır)

Fırsat ayrıntıları, dönüşme tarihi

Müşteriyi kaybedecek miyiz?

Müşteri kaybedildi (Evet veya Hayır)

Kaybetme neden, kaybetme tarihi, statik müşteri olma süresi, müşteri ilgi düzeyi

Çalışan gönüllü olarak işten ayrılacak mı?

İşten ayrılma (Evet veya Hayır)

Çıkış mülakatı ayrıntıları, işten ayrılma tarihi, istifa dilekçesi bilgileri

Veri sızıntısını önleme

Veri sızıntısını önlemenin en iyi yolu, iyi bir iş sorusu ve veri kümesi oluşturmak için yapısal çerçeveyi kullanmaktır. Daha fazla bilgi için bkz. Makine öğrenimi sorularını tanımlama.

İpucu notuModel eğitiminde kullanılmaması gereken sızıntı sütununu belirlediyseniz bunu veri kümesinde tutmaya devam edebilirsiniz. Bu özelliği, makine öğrenimi deneyinizde eğitim verilerinizden hariç tutmanız yeterlidir.
İLGİLİ ÖĞRENME KAYNAKLARI:

Daha fazla bilgi

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız, bize bildirin, düzeltelim!