Veri sızıntısı
Veri sızıntısı, makine öğrenimi algoritmasını eğitmek için kullanılan verilerin, tahmin etmeye çalıştığınız verileri içermesidir. Bu durum, modelin eğitimde, gerçek dünyada göstereceğinden daha iyi performans göstermesine ve buna bağlı olarak modelin performansı hakkında yanıltıcı bir güvence ortaya çıkmasına neden olur. Güvenilir tahminler elde etmek için veri sızıntısının nasıl tespit edileceğini ve nasıl önleneceğini öğrenin.
Genel olarak veri sızıntısının nedeni aşağıdakilerden en az biridir:
-
Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin etmeye çalıştığınız hedef değişkeni türetmek için kullanılabildiği durumlarda. Örneğin, hedefiniz bir Sales alanı ve özelliklerinizden biri Sales kısmından hesaplanan Sales Tax alanı.
-
Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin anında bilinmesi mümkün olmayan bilgileri içerdiği durumlarda.
Aşağıdaki tabloda Stage sütunu, tahmin etmek istediğimiz Stage (Binary) sütununun çoğaltılmasıyla elde edilmiştir. Stage sütununu eğitim veri kümesine dahil ettiğimizde, tahmin edilecek sonuç için yanıt sağlamış oluruz ve bu da modelimizin yüksek puan almasına yola açar.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
Hedef sızıntısı
Hedef sızıntısı bir veri sızıntısı biçimidir. Hedef sızıntısı, özellik verilerinin, tahminler için kullanılabilen hedef verilere referans verdiği durumlarda gerçekleşir. Referanslar veya "sızıntılar" doğrudan ya da dolaylı olabilir.
Akıllı model optimizasyonu ile AutoML, hedef sızıntısını tespit eder ve modellerin içine girmesini engeller. Hedef sızıntısı gösteren özellikler otomatik olarak tespit edilir ve model eğitiminden kaldırılır. Akıllı model optimizasyonu hakkında daha fazla bilgi için bkz. Akıllı model optimizasyonu.
Veri sızıntısını tespit etme
Veri sızıntısını tespit etmek için "Tahmin yapmak istediğiniz anda, kayıtlarla ilgili bu bilgilerin aynısına sahip olacak mısınız?" veya "Kayıt, 30 gün sonra aynı kalacak mı?" gibi soruları sormanızı öneririz. Eğitim veri kümenizdeki tüm verilerin, iş sorunuzdaki süre kısıtlamasına bağlı olması gerektiğini unutmayın.
Modeli eğittiğinizde model metriklerinde şu ipuçlarını arayabilirsiniz.
-
Yüksek puanlar: Puan gerçekten yüksek mi? Örneğin, F1 puanı 85'ten yüksek mi?
-
Özelliğin önemi: Bir özellik, diğer her şeyden çok daha fazla önemli mi?
-
Bölme puanı: Bölme puanı, çapraz doğrulama puanından çok daha düşük mü?
Tabloda veri sızıntısına neden olabilecek sık karşılaşılan özelliklerin örnekleri gösterilmektedir.
İş kullanımı senaryosu | Hedef |
Sızıntı potansiyeline sahip özellikler |
---|---|---|
Satış fırsatı kapatılacak mı? |
Kapalı (Evet veya Hayır) |
Aşama, kapatılma tarihi, fatura ayrıntıları, ödenen komisyon ücretleri |
Gelecekteki bir işlem tutarını tahmin etme |
Sonraki işlemin tutarı |
Vergiler, sipariş ayrıntıları |
Potansiyel müşteri, fırsata dönüşecek mi? |
Dönüşüm (Evet veya Hayır) |
Fırsat ayrıntıları, dönüşme tarihi |
Müşteriyi kaybedecek miyiz? |
Müşteri kaybedildi (Evet veya Hayır) |
Kaybetme neden, kaybetme tarihi, statik müşteri olma süresi, müşteri ilgi düzeyi |
Çalışan gönüllü olarak işten ayrılacak mı? |
İşten ayrılma (Evet veya Hayır) |
Çıkış mülakatı ayrıntıları, işten ayrılma tarihi, istifa dilekçesi bilgileri |
Veri sızıntısını önleme
Veri sızıntısını önlemenin en iyi yolu, iyi bir iş sorusu ve veri kümesi oluşturmak için yapısal çerçeveyi kullanmaktır. Daha fazla bilgi için bkz. Makine öğrenimi sorularını tanımlama.