Kategorik kodlama
Çoğu makine öğrenimi algoritmasında değişkenlerin sayısal olması gerekir. Kategorik değer, aynı sütundaki diğer değerlerle net bir şekilde ölçülebilir ilişkiye sahip olmadığından matematiksel olarak ölçülebilmesi için öncelikle sayısal gösterime dönüştürülmelidir. AutoML, özellik sütunlarındaki kategorik değerleri, makine öğrenimi algoritmalarının anlayabileceği sayısal değerlere dönüştürmek için kategorik kodlama kullanır.
AutoML'de şu iki kodlama yöntemi kullanılır: impact kodlama ve one-hot kodlama. Belirli bir özellikte kullanılan yöntem veri kümesi boyutuna ve benzersiz kategorik değerlerin sayısına bağlıdır.
-
100 veya daha az sütunlu veri kümeleri için:
-
13 veya daha az benzersiz değer içeren kategorik özellikler one-hot encoded olur.
-
13'ten fazla benzersiz değer içeren kategorik özellikler impact encoded olur.
-
-
100'den fazla sütun içeren veri kümelerinde tüm kategorik sütunlar impact encoded olur.
Veri kümenizdeki hangi özelliklerin kategorik kodlama kullanılarak işlendiğini görmek için, ML deneyinizi yapılandırırken şema görünümüne bakabilirsiniz. Daha fazla bilgi için bkz. Deneyleri yapılandırma.
Kategorik kodlama nasıl çalışır
Bir kategoriyi matematiksel gösterimle ifade etmek için kullanılan yaygın yöntem one-hot kodlamadır. One-hot kodlama, kategorik sütunu n adet sütuna ayırır. n, sütundaki benzersiz değerlerin sayısına eşittir. Her satır için uygun sütuna 1, kategori için oluşturulan diğer sütunlara 0 rakamı atanır. Kategorik kodlama, sütundaki diğer değerlere göre değerlendirilen sayısal değerin aksine, her bir benzersiz değişkenin diğerlerinden bağımsız olarak değerlendirilmesini sağlar.
Örneğin, tabloda MarketingSource sütunun nasıl one-hot encoded haline getirildiği gösterilmektedir. Sonuç olarak her bir benzersiz pazarlama kaynağı için bir sütun olmak üzere dört yeni sütun oluşturulur. Birinci satırda, Person_1, "Facebook" pazarlama kaynağına sahiptir. Bu, yeni Facebook sütununda 1, diğer sütunlarda 0 değeriyle gösterilir.