跳到主要內容 跳至補充內容

理解置換重要性

permutation importance 衡量特徵對模型整體預測的重要程度。換言之,即若您移除模型從該特徵學習的能力,會如何影響模型。該指標可協助您變更要納入哪些特徵和演算法,以精簡模型。

Permutation importance 使用 scikit-learn permutation importance 來計算。這在排列特徵後衡量模型分數減少的情況。

  • 若隨機使用其值會減少模型分數,代表特徵是「重要」,因為在此情況下,模型依賴該特徵進行預測。

  • 若隨機使用其值會讓模型效能保持不變,代表特徵是「不重要」,因為在此情況下,模型忽略該特徵進行預測。

在 permutation importance 圖表中,以影響程度由高 (對模型效能影響最大) 至低 (對模型效能影響最小) 的順序顯示特徵。列大小代表每個特徵的重要性。

置換重要性圖表是為每個在實驗期間訓練的模型自動產生。圖表顯示在模型索引標籤中。

Permutation importance 圖表

Permutation importance 圖表。

使用 permutation importance 選擇特徵欄

反覆進行模型訓練時,可以查看 permutation importance 以決定要保留哪些欄以及要排除哪些欄。記下哪些特徵對多個模型最重要。這些特徵的預測價值可能最高,而且在您精簡模型時是適合保留的候選對象。同樣地,持續位於清單底部的特徵可能沒有太大的預測價值,是適合排除的候選對象。

若某個演算法分數明顯優於其他演算法,請聚焦於該演算法的 permutation importance 圖表。若多個演算法都有類似的分數,您可以比較這些演算法的 permutation importance 圖表。

使用 permutation importance 選擇演算法

每個演算法都有從訓練資料學習模式的獨特方法。會以多個演算法訓練實驗,以查看哪個方法最適合特定資料集。不同的方法由不同演算法的 permutation importance 變化來反映。例如,特徵 A 可能對邏輯迴歸模型最重要,而在 XGBoost 分類的方法下,特徵 B 則對相同的資料最重要。一般而言,預測能力高的特徵預期會是各個演算法的最佳特徵,但會經常看見變化。

若您在分數類似的演算法之間選擇,可以在 permutation importance 中使用此變化。根據您的具體商務知識,選取具有更直覺之最佳特徵的演算法。

置換重要性的可用性

在實驗中納入自由文字特徵會增加實驗的複雜性和需要的執行流程。若自由文字資料夠複雜,置換重要性圖表可能無法用於產生的模型。

瞭解更多資訊

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!