Veri sızıntısı

Veri sızıntısı, makine öğrenimi algoritmasını eğitmek için kullanılan verilerin, tahmin etmeye çalıştığınız verileri içermesidir. Bu durum, modelin eğitimde, gerçek dünyada göstereceğinden daha iyi performans göstermesine ve buna bağlı olarak modelin performansı hakkında yanıltıcı bir güvence ortaya çıkmasına neden olur. Güvenilir tahminler elde etmek için veri sızıntısının nasıl tespit edileceğini ve nasıl önleneceğini öğrenin.

Genel olarak veri sızıntısının nedeni aşağıdakilerden en az biridir:

Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin etmeye çalıştığınız hedef değişkeni türetmek için kullanılabildiği durumlarda. Örneğin, hedefiniz bir Sales alanı ve özelliklerinizden biri Sales kısmından hesaplanan Sales Tax alanı.
Eğitim kümesindeki bir veya daha fazla özelliğin, tahmin anında bilinmesi mümkün olmayan bilgileri içerdiği durumlarda.

Aşağıdaki tabloda Stage sütunu, tahmin etmek istediğimiz Stage (Binary) sütununun çoğaltılmasıyla elde edilmiştir. Stage sütununu eğitim veri kümesine dahil ettiğimizde, tahmin edilecek sonuç için yanıt sağlamış oluruz ve bu da modelimizin yüksek puan almasına yola açar.

Hedef olan Stage (Binary) sütunu hakkında bilgi barındıran Stage başlıklı "sızıntı sütunu"nu içeren tablo
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Hedef sızıntısı

Hedef sızıntısı bir veri sızıntısı biçimidir. Hedef sızıntısı, özellik verilerinin, tahminler için kullanılabilen hedef verilere referans verdiği durumlarda gerçekleşir. Referanslar veya "sızıntılar" doğrudan ya da dolaylı olabilir.

Akıllı model optimizasyonu ile AutoML, hedef sızıntısını tespit eder ve modellerin içine girmesini engeller. Hedef sızıntısı gösteren özellikler otomatik olarak tespit edilir ve model eğitiminden kaldırılır. Akıllı model optimizasyonu hakkında daha fazla bilgi için bkz. Akıllı model optimizasyonu.

Veri sızıntısını tespit etme

Veri sızıntısını tespit etmek için "Tahmin yapmak istediğiniz anda, kayıtlarla ilgili bu bilgilerin aynısına sahip olacak mısınız?" veya "Kayıt, 30 gün sonra aynı kalacak mı?" gibi soruları sormanızı öneririz. Eğitim veri kümenizdeki tüm verilerin, iş sorunuzdaki süre kısıtlamasına bağlı olması gerektiğini unutmayın.

Modeli eğittiğinizde model metriklerinde şu ipuçlarını arayabilirsiniz.

Yüksek puanlar: Puan gerçekten yüksek mi? Örneğin, F1 puanı 85'ten yüksek mi?
Özelliğin önemi: Bir özellik, diğer her şeyden çok daha fazla önemli mi?
Bölme puanı: Bölme puanı, çapraz doğrulama puanından çok daha düşük mü?

Tabloda veri sızıntısına neden olabilecek sık karşılaşılan özelliklerin örnekleri gösterilmektedir.

İş kullanımı senaryosu	Hedef	Sızıntı potansiyeline sahip özellikler
Satış fırsatı kapatılacak mı?	Kapalı (Evet veya Hayır)	Aşama, kapatılma tarihi, fatura ayrıntıları, ödenen komisyon ücretleri
Gelecekteki bir işlem tutarını tahmin etme	Sonraki işlemin tutarı	Vergiler, sipariş ayrıntıları
Potansiyel müşteri, fırsata dönüşecek mi?	Dönüşüm (Evet veya Hayır)	Fırsat ayrıntıları, dönüşme tarihi
Müşteriyi kaybedecek miyiz?	Müşteri kaybedildi (Evet veya Hayır)	Kaybetme neden, kaybetme tarihi, statik müşteri olma süresi, müşteri ilgi düzeyi
Çalışan gönüllü olarak işten ayrılacak mı?	İşten ayrılma (Evet veya Hayır)	Çıkış mülakatı ayrıntıları, işten ayrılma tarihi, istifa dilekçesi bilgileri

Veri sızıntısını önleme

Veri sızıntısını önlemenin en iyi yolu, iyi bir iş sorusu ve veri kümesi oluşturmak için yapısal çerçeveyi kullanmaktır. Daha fazla bilgi için bkz. Makine öğrenimi sorularını tanımlama.

Model eğitiminde kullanılmaması gereken sızıntı sütununu belirlediyseniz bunu veri kümesinde tutmaya devam edebilirsiniz. Bu özelliği, makine öğrenimi deneyinizde eğitim verilerinizden hariç tutmanız yeterlidir.

İLGİLİ ÖĞRENME KAYNAKLARI:

Araştırma Amaçlı Veri Analizi

Daha fazla bilgi

Araştırma Amaçlı Veri Analizi

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız, bize bildirin, düzeltelim!

Geri bildiriminizi buradan iletin