Permütasyon önemini anlama
Permutation importance, genel model tahmini açısından bir özelliğin ne kadar önemli olduğunu ölçer. Diğer bir deyişle, söz konusu özellikten öğrenme olanağı ortadan kaldırılırsa modelin bundan ne kadar etkileneceğini belirtir. Bu metrik, dahil edilecek özellikleri ve algoritmaları değiştirerek bir modeli iyileştirmenize yardımcı olabilir.
Permutation importance, scikit-learn permutation importance kullanılarak hesaplanır. Özellik değiştirildikten sonra model puanındaki düşüşü ölçer.
-
Özelliğin değerlerinin karıştırılması model puanında düşüşe neden oluyorsa bu, söz konusu özelliğin "önemli" olduğu anlamına gelir. Çünkü bu durumda model, tahmin yaparken özelliğe bağlıdır.
-
Özelliğin değerlerinin karıştırılması model puanında değişikliğe yol açmıyorsa bu, söz konusu özelliğin "önemsiz" olduğu anlamına gelir. Çünkü bu durumda model, tahmin yaparken özelliği yok sayıyordur.
Permutation importance grafiğinde özellikler, en etkili olandan (model performansında en büyük etkiye sahip olan) en az etkili olana (model performansında en az etkiye sahip olan) sıralamasıyla görüntülenir. Sütun boyu, her özelliğin önemini temsil eder.
Bir deney sırasında eğitilen her bir model için bir permütasyon önemi grafiği otomatik olarak oluşturulur. Grafik, Modeller sekmesinde görüntülenir.
Özellik sütunlarını seçmek için permutation importance ölçümünü kullanma
Model eğitimini yinlediğinizde, hangi sütunları koruyup hangilerini hariç tutacağınızı belirlemek için permutation importance ölçümüne bakabilirsiniz. Farklı modellerde en önemli özelliklerin hangileri olduğuna dikkat edin. Bunlar muhtemelen tahmin değeri en yüksek olan özelliklerdir ve modelinizi iyileştirirken koruyacağınız sütunların başında gelebilir. Benzer şekilde, sürekli olarak listenin en altında yer alan özellikler çok az tahmin değerine sahiptir ve hariç tutacağınız sütunların başında bunlar gelebilir.
Bir algoritma diğerlerinden belirgin ölçüde daha fazla puan alıyorsa söz konusu algoritmanın permutation importance grafiğine odaklanın. Birden fazla algoritma aynı puanı alıyorsa bu algoritmaların permutation importance grafiklerini karşılaştırabilirsiniz.
Doğru algoritmaları seçmek için permutation importance ölçümünü kullanma
Her algoritma, eğitim verilerindeki öğrenme örüntüleri için benzersiz bir yaklaşıma sahiptir. Deneyler, belirli bir veri kümesi için en uygun yaklaşımın hangisi olduğunu anlamak amacıyla birden çok algoritmayla eğitilir. Farklı yaklaşımlar, farklı algoritmalar için permutation importance değişimleriyle yansıtılır. Örneğin aynı veriler üzerinde, A özelliği lojistik regresyon modeli için en önemli özellik olabilir, B özelliği ise XGBoost sınıflandırması yaklaşımında en önemli özellik olabilir. Genel olarak tahmin gücü yüksek özelliklerin, tüm algoritmalarda en üst sıradaki özellik olması beklenir ancak yaygın olarak değişiklik de görülür.
Aynı puana sahip algoritmalar arasından seçim yaparken permutation importance ölçümündeki bu değişikliği kullanabilirsiniz. İşle ilgili özel bilginizi dikkate alarak, sezgisel açıdan daha uygun olan en iyi özelliklere sahip algoritmayı seçin.
Permutation importance kullanımı
Deneyinize serbest metin özellikleri eklemek, deneyin ve deneyi çalıştırmak için gereken işlemlerin karmaşıklığını artırır. Serbest metin verilerinizin yeterince karmaşık olması durumunda Permutation importance grafikleri, sonuçta oluşan modeller için kullanılamayabilir.