Özellik önemini anlama
Özellik öneminde, her bir özelliğin hedef üzerinde ne kadar etkili olduğu ölçülür. Veri kümesi sorunlarını belirlemenize ve modeli iyileştirmenize yardımcı olabilir. Özellik önemi, iki farklı görselleştirmeden oluşur: permutation importance ve SHAP importance.
Özellik öneminin basitçe şu şekilde yorumlanabilir: Özellik açısından en önemli değişkeni değiştirmek, hedef değişkende, diğer herhangi bir değişkeni değiştirmekten daha fazla değişikliğe yol açar. Özellik açısından en önemli iki değişkeni değiştirmek, muhtemelen birini değiştirmekten daha fazla etki yaratır. Ancak şu ilke geçerlidir: Özellik açısından çok düşük öneme sahip öğenin tahmin gücü yoktur. Bunu kontrol etmek veya değiştirmek fark yaratmayabilir.
Özellik önemini kullanma
Özellik önemi, modeli eğitmek için kullanılan verilerdeki sorunların tespit edilmesine yardımcı olabilir. Örneğin, bir satış fırsatının kapanıp kapanmayacağını tahmin etmeye çalıştığımızı ve satışın kapanış tarihini içeren bir sütunu hariç tutmayı unuttuğumuzu varsayalım. Bu, büyük olasılıkla tahmin gücü en yüksek sütun olacaktır ve bu nedenle en yüksek özellik önemine sahip olacaktır. Bir satışın kapanıp kapanmadığına ilişkin ikili sonucu tahmin etmeye çalıştığımızda kapanış tarihine erişimimiz olmadığından bunu dahil etmek, modelin gerçek hayatta olduğundan daha iyi performans göstermesine neden olur.
Ayrıca özellik önemi, modelin yinelendiğinde daha iyi hale gelmesini sağlamanın yollarını bulmanıza yardımcı olabilir. Özellik açısından en önemli değerler, segmentlere ayırmak için iyi bir dayanak olabilir. Örneğin, otomatik ödeme işareti özellik açısından çok önemli olabilir. Bu özelliği, veriyi segmentlere ayırmak ve bir modeli otomatik ödeme ayarlayan müşteriler, başka bir modeli ise otomatik ödeme ayarlamamış müşteriler için eğitmek üzere kullanabiliriz. İki model, ilk modelimizden daha iyi sonuç verebilir.
Diğer senaryolarda, özellik açısından daha önemli olan bir değişkenin neyi açıkladığını daha iyi temsil eden özellikleri, gereksiz öğeler eklemeden yakalayabilir ve oluşturabilirsiniz. Örneğin, özellik açısından çok önemli olan bir değişken, bir işletme tarafından üretilen bir ürün ailesi olabilir. Ürün ailesini, ürünler hakkında daha açıklayıcı birkaç özelliğe ayırmak etkili olabilir.
Permutation importance ile SHAP importance karşılaştırması
Permutation importance ve SHAP importance, özellik önemini ölçmede kullanılan alternatif yöntemlerdir. İki yöntem arasındaki temel fark şudur: Permutation importance, model performansındaki düşüşe; SHAP importance ise özellik ilişkilendirmelerinin boyutuna dayanır.
Değerleri kullanma
Permutation importance şu amaçla kullanılabilir:
-
Hangi özelliklerin korunacağını, hangilerinin hariç tutulacağını anlama.
-
Veri sızıntısını kontrol etme.
-
Modelin doğruluğu açısından en önemli özelliklerin hangileri olduğunu anlama.
-
Ekstra özellik mühendisliğine yardımcı olma.
SHAP importance şu amaçla kullanılabilir:
-
Tahmin edilen sonucu en çok etkileyen özelliklerin hangileri olduğunu anlama.
-
Bir özelliği inceleme ve bu özelliğin farklı değerlerinin tahmini nasıl etkilediğini anlama.
-
Veri içindeki her bir satırı veya alt kümeyi en çok neyin etkilediğini anlama.
Veri düzeyi
Permutation importance, veri kümesinin tamamında hesaplanır. Özellikle, bir özelliği ortadan kaldırarak tüm veri kümesinin doğruluğunun ne kadar değiştiği hesaplanır. Tek tek satırlara olan etkisini anlamak için kullanılamaz.
SHAP importance, satır düzeyinde hesaplanır ve belirli bir satır için hangi öğenin önemli olduğunu anlamak için kullanılabilir. Değerler, bir özelliğin, veri kümesindeki ortalama sonuca göre tek bir satır için yapılan tahmini nasıl etkilediğini temsil eder.
Özellik etkisi değerleri
Permutation importance, bir özellik içindeki en önemli değerlerin hangileri olduğunu anlamak için kullanılamaz.
SHAP importance değerleri, belirli bir özellik içindeki değerlerin sonucu nasıl etkilediğini anlamak için kullanılabilir.
Yön
Permutation importance yön içermez.
SHAP importance değerleri yön belirtir. Bu değerler, tahmin edilen sonucu hangi yönde etkilediklerine bağlı olarak pozitif veya negatif olabilirler.
Boyut
Permutation importance boyutunda, özelliğin, genel model tahmini açısından ne kadar önemli olduğu ölçülür.
SHAP importance boyutu ise belirli bir özelliğin, bir satır için yapılan tahminin, veri kümesinin tahmin ortalamasından farklı olmasında ne kadar etkili olduğunu belirtir.