理解置換重要性

permutation importance 衡量特徵對模型整體預測的重要程度。換言之，即若您移除模型從該特徵學習的能力，會如何影響模型。該指標可協助您變更要納入哪些特徵和演算法，以精簡模型。

Permutation importance 使用 scikit-learn permutation importance 來計算。這在排列特徵後衡量模型分數減少的情況。

若隨機使用其值會減少模型分數，代表特徵是「重要」，因為在此情況下，模型依賴該特徵進行預測。
若隨機使用其值會讓模型效能保持不變，代表特徵是「不重要」，因為在此情況下，模型忽略該特徵進行預測。

在 permutation importance 圖表中，以影響程度由高 (對模型效能影響最大) 至低 (對模型效能影響最小) 的順序顯示特徵。列大小代表每個特徵的重要性。

置換重要性圖表是為每個在實驗期間訓練的模型自動產生。圖表顯示在模型索引標籤中。

使用 permutation importance 選擇特徵欄

反覆進行模型訓練時，可以查看 permutation importance 以決定要保留哪些欄以及要排除哪些欄。記下哪些特徵對多個模型最重要。這些特徵的預測價值可能最高，而且在您精簡模型時是適合保留的候選對象。同樣地，持續位於清單底部的特徵可能沒有太大的預測價值，是適合排除的候選對象。

若某個演算法分數明顯優於其他演算法，請聚焦於該演算法的 permutation importance 圖表。若多個演算法都有類似的分數，您可以比較這些演算法的 permutation importance 圖表。

使用 permutation importance 選擇演算法

每個演算法都有從訓練資料學習模式的獨特方法。會以多個演算法訓練實驗，以查看哪個方法最適合特定資料集。不同的方法由不同演算法的 permutation importance 變化來反映。例如，特徵 A 可能對邏輯迴歸模型最重要，而在 XGBoost 分類的方法下，特徵 B 則對相同的資料最重要。一般而言，預測能力高的特徵預期會是各個演算法的最佳特徵，但會經常看見變化。

若您在分數類似的演算法之間選擇，可以在 permutation importance 中使用此變化。根據您的具體商務知識，選取具有更直覺之最佳特徵的演算法。

置換重要性的可用性

在實驗中納入自由文字特徵會增加實驗的複雜性和需要的執行流程。若自由文字資料夠複雜，置換重要性圖表可能無法用於產生的模型。

此頁面是否對您有幫助？

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們！

在此留下意見回饋