Özellik ölçeklendirme
Özellikler, bir hedef değeri tahmin etmek için kullanılan, veri kümenizdeki sütunlardır. Özelliklerin veri değerleri genellikle farklı aralıklara sahiptir. Özellik ölçeklendirme, değerleri eşit olarak dağıtmak için değer aralıklarını sayısal sütunlarda standart hale getirir. Bu, başka durumlarda ilişkilendirilemeyen değerlerin ilişkilendirilmesini mümkün kılar.
Bir ev sahibinin, ipotek ödemesini yapıp yapmayacağını tahmin etmeye çalıştığımızı varsayalım. Bu senaryoda faiz oranı ve evin değeri, çok farklı aralıklara ve boyutlara sahip olacaktır. Bu değerlerin, kendilerine göre standart hale getirilmesi onların, matematiksel olarak aynı düzlemde temsil edilmesine olanak sağlar. Bu, model eğitiminde hem doğruluğu hem de hızı artırır.
Özellik ölçeklendirme nasıl çalışır
Yaygın bir özellik ölçeklendirme uygulaması, her sütunun ortalamasını ve standart sapmasını hesaplamaktır. Ardından her satırın ortalamadan kaç standart sapma değeri uzakta olduğu hesaplanır.
Bu kavramı ve uygulamasını göstermek için InitialOrderValue ve DaysToConvert sütunlarını içeren bir tablo hazırladık.
Orijinal verileri içeren tablo. İki sütundaki aralıklar arasında büyük bir fark var.

Sütunların ortalama değeri ve standart sapması hesaplanır. Bu değerleri, orijinal değerlerde özellik ölçeklendirme yapmak için kullanabiliriz. Özellik ölçeklendirme uygulanmış değer, orijinal değer ile ortalamayı standart sapmaya bölerek elde edilen değer arasındaki farktır.
Ortalama değer ve standart sapma

Tablomuzdaki ilk kayıt olan Person_1 için ilk sipariş değeri 45,37 $ tutarındadır. İlk sipariş değeri için ortalama 32,81 $ ve standart sapma 13,58 $'dır. Bu bize özellik ölçeklendirme uygulanmış değeri verir: (45,37 $ - 32,81 $)/13,58 $ = 0,925
Birimlerin ($) bölme işleminde atıldığını unutmayın. Bu, 0,925'in artık dolar olarak ölçülmediğini, ortalamayla aradaki farkın göreli standart sapma cinsinden ölçüldüğü anlamına gelir. Bunu iki sütuna da uyguladığımızda artık bu sütunlar aynı açıklama düzleminde yer alıyor olurlar. Aşağıdaki tabloda özellik ölçeklendirme uygulanmış değerler gösterilmektedir.
Özellik ölçeklendirme uygulanmış verileri içeren tablo

Orijinal değerler ile özellik ölçeklendirme uygulanmış değerler arasındaki fark, aşağıdaki kutu çizimlerinde görselleştirilmiştir.
Orijinal verilerin kutu çizimleri

Özellik ölçeklendirme uygulanmış verilerin kutu çizimleri
