Veri sızıntısı
Veri sızıntısı, makine öğrenimi algoritmasını eğitmek için kullanılan verilerin, tahmin etmeye çalıştığınız verileri içermesidir. Bu durum, modelin eğitimde, gerçek dünyada göstereceğinden daha iyi performans göstermesine ve buna bağlı olarak modelin performansı hakkında yanıltıcı bir güvence ortaya çıkmasına neden olur. Güvenilir tahminler elde etmek için veri sızıntısının nasıl tespit edileceğini ve nasıl önleneceğini öğrenin.
Veri sızıntısı iki biçimde görülür:
-
Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin etmeye çalıştığınız hedef değişkeni türetmek için kullanılabildiği durumlarda.
-
Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin anında bilinmesi mümkün olmayan bilgileri içerdiği durumlarda.
Aşağıdaki tabloda Aşama sütunu, tahmin etmek istediğimiz Aşama (İkili) sütunun çoğaltılmasıyla elde edilmiştir. Aşama sütununu eğitim veri kümesine dahil ettiğimizde, tahmin edilecek sonuç için yanıt sağlamış oluruz ve bu da modelimizin yüksek puan almasına yola açar.
Veri sızıntısını tespit etme
Veri sızıntısını tespit etmek için "Tahmin yapmak istediğiniz anda, kayıtlarla ilgili bu bilgilerin aynısına sahip olacak mısınız?" veya "Kayıt, 30 gün sonra aynı kalacak mı?" gibi soruları sormanızı öneririz. Eğitim veri kümenizdeki tüm verilerin, iş sorunuzdaki süre kısıtlamasına bağlı olması gerektiğini unutmayın.
Modeli eğittiğinizde model metriklerinde şu ipuçlarını arayabilirsiniz.
-
Yüksek puanlar: Puan gerçekten yüksek mi? Örneğin, F1 puanı 85'ten yüksek mi?
-
Özelliğin önemi: Bir özellik, diğer her şeyden çok daha fazla önemli mi?
-
Bölme puanı: Bölme puanı, çapraz doğrulama puanından çok daha düşük mü?
Tabloda veri sızıntısına neden olabilecek sık karşılaşılan özelliklerin örnekleri gösterilmektedir.
İş kullanımı senaryosu | Hedef |
Sızıntı potansiyeline sahip özellikler |
---|---|---|
Satış fırsatı kapatılacak mı? |
Kapalı (Evet veya Hayır) |
Aşama, kapatılma tarihi, fatura ayrıntıları, ödenen komisyon ücretleri |
Gelecekteki bir işlem tutarını tahmin etme |
Sonraki işlemin tutarı |
Vergiler, sipariş ayrıntıları |
Potansiyel müşteri, fırsata dönüşecek mi? |
Dönüşüm (Evet veya Hayır) |
Fırsat ayrıntıları, dönüşme tarihi |
Müşteriyi kaybedecek miyiz? |
Müşteri kaybedildi (Evet veya Hayır) |
Kaybetme neden, kaybetme tarihi, statik müşteri olma süresi, müşteri ilgi düzeyi |
Çalışan gönüllü olarak işten ayrılacak mı? |
İşten ayrılma (Evet veya Hayır) |
Çıkış mülakatı ayrıntıları, işten ayrılma tarihi, istifa dilekçesi bilgileri |
Veri sızıntısını önleme
Veri sızıntısını önlemenin en iyi yolu, iyi bir iş sorusu ve veri kümesi oluşturmak için yapısal çerçeveyi kullanmaktır. Daha fazla bilgi için bkz. Makine öğrenimi sorularını tanımlama.