Ana içeriğe geç Tamamlayıcı içeriğe geç

Veri kümenizi eğitim için hazırlama

Makine öğrenimi sorunuzu yanıtlamak için bir veri kümesinde eğitim yaparsınız. Eğitim veri kümesi, hedefi içeren bir sütunun yanı sıra her özelliğe ait birer sütun da içerir. Makine öğrenimi algoritmaları, hedef hakkında tahminde bulunabilen bir model oluşturmak için bu veri satırlarındaki genel örüntüleri öğrenirler.

Veri kümesini makine öğrenimine hazır hale getirmek için verilerinizi anlamanız ve gerekli veri noktalarını toplamanız gerekir. Ayrıca bazı verileri dönüştürmeniz ve kullanım senaryonuzla ilgili olmayan verileri kaldırmanız da gerekebilir.

Neleri toplamanız gerekir?

Makine öğrenimi sorunuzu doğru tanımlayın ve bu soruyu yanıtlamak için tam olarak hangi verilerin toplanması gerektiğine karar verin:

  • Hangi müşterileri kaybedeceğinizi tahmin etmek istiyorsanız her satırın bir müşteriyi, her özellik sütunun ise müşteriyi tanımlayan bir özelliği temsil ettiği bir veri kümesi toplamanız gerekir. Hedef sütununun da söz konusu müşterinin belirli bir dönem içinde kaybedilip kaybedilmediğini belirtmesi gerekir.

  • Belirli bir ay ve bölge için satışları tahmin etmek istiyorsanız her satırın belirli bir bölgedeki belirli bir ayı, her özellik sütunun ise bölgenin ilgili ay içindeki iş hacmini tanımlayan bir özelliği temsil ettiği bir veri kümesi toplamanız gerekir. Hedef sütununun da bölgenin o aya ait satış gelirlerini belirtmesi gerekir.

Hangi unsurların hedefi etkilediğini bulmaya ve bu verilerin toplanıp toplanamayacağını belirlemeye çalışın. Tahmin algoritmalarının yalnızca bulunması gereken örüntüleri tespit edebileceğini unutmayın. Ek bilgiler elde etmek için ekstra özellikler toplamanız veya oluşturmanız gerekiyor olabilir.

Ayrıca doğru bir tahminde bulunmadan önce ne kadar veri toplamanız gerektiğini belirlemeniz gerekir. Olayın temsil edici nitelik kazanması ne kadar sürer? Şu örnekleri inceleyin:

  • Müşteriler 90. günde ayrılıyorsa tahminde bulunabilmeniz için 60 gündür üye olmaları gerekiyor.

  • Sigorta tazminatı talebi maliyeti birkaç ay boyunca bilinmeyeceğinden 6 aydan eski olan tazminat taleplerini hariç tutabilirsiniz.

Zaman değişkenli ve zaman değişkenli olmayan verileri arasındaki farkı belirleyin. Zaman değişkenli verilerde, uygun şekilde toplanabilmesi için verilere zaman damgası eklenmiş mi?

Veriler, tahmin tarihinde kullanılabilir olacak mı?

Eğitim veri kümesine dahil ettiğiniz tüm özelliklerin gelecekteki tahminlerde de kullanılabilir olacağından emin olun. Modeli, geçmiş veriler için kullanabildiğiniz ancak gelecekte tahmin yaptığınızda kullanamayacağınız özelliklerle eğitmek yaygın yapılan bir hatadır. Yeni verilerle ilgili tahmin yaparken makine öğrenimi algoritmasının, eğitim veri kümesinde kullanılabilen tüm özelliklerin değerlerine sahip olması gerekir.

Daha fazla veri daha iyi midir?

Örneklem boyutu

Yüksek hacimli verilerle daha güvenilir modeller üretilebilir. İster yeni ister eski gözlemler olsun, ilgili ekstra veri noktaları size yardımcı olacaktır.

Özellik sayısı

Hedeflenen sonuçla ilgisinden bağımsız olarak mevcut tüm değişkenleri modele dahil etmek cazip gelebilir. Ancak basit bir model kullanmak önerilir. Genellikle modelde az sayıda özellik kullanmak daha iyidir.

Fazla özellik eklendiğinde, ortaya çıkarmak istediğiniz temeldeki asıl ilişkilerin saklı kalma riski artabilir. Tahmin modeli, modeli eğitirken kullanılan verilerin yanında iyi performans gösteren bir dizi karmaşık kural oluşturmak için tüm özellikleri kullanabilir. Ancak tahmin edilen hedef, aslında yalnızca bir veya iki özellikten etkileniyor olabilir. Bu model, eğitimde kullanılanlar haricindeki veriler için genelleştirme yapmada başarılı olmayabilir ve bu nedenle yeni verilere uygulandığında yetersiz tahmin performansı ortaya çıkar.

Aşırı öğrenme

Aşırı öğrenme, modelin gereğinden fazla karmaşık olması ve bu nedenle yeni veri tahminlerinde güvenilir olmaması anlamına gelir. Aşırı öğrenme, mevcut veri noktası sayısına göre çok fazla özellik bulunduğunda ortaya çıkabilir. Örneğin, veri kümesinde sadece 50 satır veri bulunmasına karşın 100 özellik sütunu olabilir.

Eğitim verileriniz ilgili mi?

Makine öğrenimi algoritması, sunduğunuz verilerdeki örüntüleri bulur ve gelecekteki verilerle ilgili tahminler yapmak için bu örüntüleri kullanır. Yeni verilerle tahmin yaptığınızda bu verilerin eğitim verilerine benzer olduğunu varsayarsınız. Bu nedenle, eğitim veri kümesinin istatistiksel açıdan eğitim veri kümesine benzemesi önemlidir.

Pazarda ve işletmede, eğitim veri kümenizde tanımlanana göre önemli değişiklikler gerçekleştiyse bu durum, muhtemelen, hatalı tahminlere yol açacak güncel olmayan bir veri kümesi olduğunuz anlamına gelir. Yeni bir eğitim veri kümesi oluşturmanız ve yalnızca değişiklikten sonraki toplanan verileri kullanmanız gerekebilir.

Makine öğrenimini anlama bölümündeki satış tahminleriyle ilgili örneği düşünün. Algoritmamıza, televizyon, radyo ve gazete reklamları için yapılan harcamaları ve geçmiş finansal çeyreklere ait satış gelirlerini temsil eden verileri girdiğimizi varsayalım. Ancak bu veriler 80'li yıllarda toplanmıştı. Artık bu ürünün reklamını radyoda yapmıyoruz, ürünün reklamını neredeyse yalnızca çevrim içi ortamda yapıyoruz. Eğitim verileri, güncel iş dünyasını temsil etmediğinden eğitilen algoritmamızın geçerli çeyrek için yaptığı satış tahminleri çok yetersiz olur.

Verileri keşfedin

Verileri anlamak ve doğrulamak için iş bilginizi kullanın. Veriler, varsayımlarınızla uyumlu değilse bu durum verilerde sorun olduğu anlamına mı yoksa varsayımlarınızın isabetsiz olduğu anlamına mı gelir?

Güvenilir olmayan özellikleri kaldırma

Şu sütunları hariç tutmanızı öneririz:

  • Bir değerin çok yoğun görüldüğü (düşük nicelik) sütunlar. Örneğin, "kırmızı", "yeşil" ve "mavi" değerlerine sahip olabilecek sütunda değerlerin %90'ı "kırmızı" olabilir.

  • Çok sayıda benzersiz değerin bulunduğu (yüksek nicelik) sütunlar.

  • Değerlerin çoğunun null olduğu sütunlar.

Bağıntılı özellikleri tespit etme

Aynı veya çok benzer bilgileri sağlayan, yüksek korelasyona sahip, gerekli olmayan özellikleri kaldırın. Veri içinde aynı davranışları yakaladığını gördüğünüz gruplardan tek bir özellik seçmenizi öneririz. Başka bir özelliği etkileyen bir özellik olup olmadığını belirlemeye çalışın.

Null değerlerini değiştirme

Hedef veya temel özellikler gibi önemli veri noktalarında eksik değer olup olmadığını belirlemek için verilerinizi inceleyin. Seyrek değerli sütundaki değerleri kullanmak için null değerleri "diğer" veya "bilinmiyor" değeriyle değiştirebilirsiniz. Bunun yerine veri toplama biçimini yeniden değerlendirmeniz de gerekebilir.

Hedef aralığı

Verilerin dağılımına bakın. Hedef verinizin dağılımı, örneklem boyutunuza göre çok dağınıksa verilerinizde örüntü bulmak zor olabilir.

Veri değerlerinin aralığı nedir? Aralık dışındaki veri değerlerini tahmin etmede bazı güçlükler vardır. Daha fazla bilgi için bkz. Ekstrapolasyon ve enterpolasyon.

Dağılımda olağan dışılıklar var mı? Verinizdeki eğrilik, kuyruklar ve çok tepeli şekiller ek veri dönüşümü veya özellik mühendisliği uygulanmasını gerektirebilir. Düşük hacimli kategorileri gruplandırmanız ve sayısal özelliklerdeki kuyrukları yuvarlamanız veya kaldırmanız önerilir.

Aykırı değerleri ortadan kaldırma

Özellik sütunlarında aykırı değerler içeren gözlemleri kaldırın. Aykırı değerler bir algoritmanın, verilerdeki genel örüntüleri ayırt etme becerisini engelleyebilir. Hedef sütunda daha dar bir dağılıma sahip olan küçük veri alt kümelerini kullanmak daha iyi olabilir.

Verileri gruplandırma

Verileri farklı veri kümelerine böldükten sonra bunları ayrı modelleri eğitmek üzere kullanarak, elde edeceğiniz sonuçları iyileştirebilirsiniz. Veri gruplandırma işlemini bir veya daha fazla özelliğe dayandırın.

Veri sızıntısı

Veri sızıntısı, makine öğrenimi algoritmasını eğitmek için kullanılan verilerin, tahmin etmeye çalıştığınız verileri içermesidir.

İLGİLİ ÖĞRENME KAYNAKLARI:

Daha fazla bilgi

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız, bize bildirin, düzeltelim!