Ana içeriğe geç Tamamlayıcı içeriğe geç

Sınıflandırma problemleri

Hedef sütunun kategorik sütun olduğu durumlar sınıflandırma problemleri olarak adlandırılır. İkili sınıflandırma problemlerinde Evet veya Hayır gibi iki olası kategori vardır. Buna karşın çok sınıflı sınıflandırma problemleri ikiden fazla olası kategori barındırır.

Aşağıdaki örneklerde iki sınıflandırma problemi türü açıklanmaktadır. Ayrıca bu örneklerde, makine öğrenimi sorusu tanımlarken göz önünde bulundurması gereken bazı noktalardan da bahsedilir.

İkili sınıflandırma örneği: Müşteri kaybı

Bu örnekte aboneliğe dayalı bir model sunan bir şirket yer alıyor. Eski ve mevcut müşterilerle ilgili veriler toplanıyor. Müşteriler, aboneliğini iptal eden (kaybedilen) veya etmeyen olarak etiketleniyor.

Toplanan veriler aşağıdaki tabloda gösterilmektedir. Satırlar benzersiz müşterileri, sütunlar ise müşteriyi tanımlayan farklı özellikleri temsil eder. Hedefimiz son sütundur. Bu, müşterinin aboneliğini iptal edip etmediğini (Evet veya Hayır) belirten ikili bir sütundur.

Toplanan verilerin örneklemi

Eğitim verileri örneklemini içeren tablo.

Herhangi bir müşterinin kaybedilip kaybedilmeyeceğini tahmin eden bir makine öğrenimi algoritması eğitmek için bu veri kümesini kullanabiliriz. Ancak bu yaklaşımda bazı sorunlar vardır:

  • Veri kümesinde yeni ve eski müşteriler karşılaştırılıyor ancak henüz aboneliğini iptal etmemiş müşterilerin ileride aboneliğini iptal edip etmeyeceğine dair bilgi yok.

  • Kazanılan yeni müşteriler, ileride kaybedilen müşteri olacağını gösteren özelliklere sahip olabilir. (İlk ay çok fazla alışveriş yapmayan 20'li yaşlardaki erkeklerin kısa süre sonra aboneliklerini iptal etme eğiliminde olduğunu biliyor olabiliriz.) Ancak yeni olduklarından ve henüz aboneliklerini iptal etmediklerinden makine öğrenimi algoritmasını, bu özellikleri, aboneliğini iptal etmeyecek sadık müşterilerle ilişkilendirecek şekilde eğitiyoruz.

Kaybı tanımlama ve problem için veri kümesini hazırlama aşamasında, fark edilmesi zor bu tür hatalara düşmekten kaçının. Makine öğrenimi tarafından işlenmesi için işle ilgili soruların net ve uygun biçimde nasıl sorulacağını öğrenmek pratik yaparak kazanılacak bir beceridir. Bununla ilgili hem iyi hem kötü örnekleri görmek, iş uygulamaları için makine öğrenimi kullanmaya başlarken size yardımcı olur. İşle ilgili sorularınızı nasıl makine öğrenimine uygun hale getireceğinizden emin değilseniz iş metriklerinize zaman aralığı eklemenizi öneririz. Genellikle bu önemli bir stratejidir.

Zaman faktörü ekleme

Soruya zaman faktörü eklediğimizi düşünelim. Hangi müşterilerin ilk altı ay içinde hizmet aboneliklerini iptal edeceğini araştırabiliriz. Örneğin, müşterilerin ilk altı ay içinde kaybedilip kaybedilmeyeceğini tahmin etmek için onların ilk ay içindeki davranışlarından yararlanabiliriz. Artık müşteri kaybını tanımlamak için zaman aralığı barındıran net bir yönteme sahibiz. Şuna benzer bir veri kümesi toplayabiliriz:

Zaman faktörü barındıran bir veri kümesi

Eğitim verileri örneklemini içeren tablo.

Burada, her bir satır bir müşteriyi temsil ediyor. Ancak yalnızca en az 6 ay boyunca abone olan müşterileri dahil ediyoruz. Müşterinin 6 ay sonra kaybedilip kaybedilmeyeceğini tahmin etmek için, her bir müşteriye ait satın alma sayılarından ve ilk ay içindeki toplam harcama verilerinden yararlanılır. Bu sorunun amacı açısından, müşterilerin 6 ay sonra kaybedilip kaybedilmeyeceği önemsiz hale gelir. Hedef sütun, yalnızca ilk 6 ay içinde aboneliğin iptal edilip edilmediğini belirtir.

Şimdi birbirleriyle karşılaştırılabilecek satırlar içeren bir eğitim veri kümemiz var. Bu veri kümesinde bir model eğittikten sonra, en az 1 ay boyunca abone olmuş tüm yeni müşterileri seçip onların ilk aydaki davranışlarını kullanabiliriz. Böylece, eğittiğimiz model ilk 6 ay içinde bu müşterilerin kaybedilip kaybedilmeyeceğini tahmin edebilir.

Çok sınıflı sınıflandırma örneği: Taç yapraklar

Bu örnekte, elimizde geniş bir taç yaprak örneklemiyle ilgili veriler var. Her çiçek için, taç ve çanak yapraklarının uzunluğu ile genişliğinin yanı sıra hangi türe ait olduğunu kaydettik. İleride yeni bir çiçekle karşılaştığımızda, çanak yaprak uzunluğu, çanak yaprak genişliği, taç yaprak uzunluğu ve taç yaprak genişliğine göre bunun hangi türe ait olduğunu tahmin etmek istiyoruz.

Toplanan verilerin örneklemi

Eğitim verileri örneklemini içeren tablo.

Geçmiş verilere göre bir fonksiyon uyarlayacak makine öğrenimi algoritmasını toplanan verilerle besleyebiliriz. Böyle bir fonksiyon, diğer dört değişken değerine göre tahmin edilen tür sonucunu verecektir. Sonuç, ayrık bir kategori kümesinde yer alan bir kategori olur.

Tahminde bulunduğumuz verilerin gelecekte istatistiksel olarak algoritmayı eğittiğimiz verilere benzeyeceğini varsayarak çalıştığımızı unutmayın. Eğitim veri kümesinde yalnızca 3 farklı türde çiçek varsa bu eğitilmiş algoritmayı yalnızca söz konusu türlerle ilgili tahminlerde bulunmak için kullanabiliriz. Makine öğrenimi algoritmasının, eğitim veri kümesinde tanımak üzere eğitilmediği örüntülerle ilgili tahmin yapmasını bekleyemeyiz.

İLGİLİ ÖĞRENME KAYNAKLARI:

Daha fazla bilgi

Bu sayfa size yardımcı oldu mu?

Bu sayfa veya içeriği ile ilgili bir sorun; bir yazım hatası, eksik bir adım veya teknik bir hata bulursanız, bize bildirin, düzeltelim!