理解實驗訓練中的 SHAP 重要性
SHAP importance 提供關於實驗中建立之預測的重要深入資訊。這可以協助您理解哪些特徵對預測最重要。
考慮到該列的所有其他特徵,SHAP 值代表每個特徵對目標預測值的貢獻程度。
訓練實驗版本後,選取模型。表格之下的模型索引標籤中的 SHAP 重要性圖表可從根據鑑效組 (測試) 資料建立的模型預測來視覺化 SHAP 資料。
此說明主題聚焦於實驗訓練中的 SHAP 重要性。如需關於預測期間產生的 SHAP 重要性資料集的資訊,請參閱 在預測期間產生 SHAP 資料集。
概覽
SHAP importance 以列層級衡量。這代表特徵如何影響單一列的預測 (相對於該列中的其他特徵以及資料集中的平均結果)。值具有兩種方向和重要性,但對於模型訓練,會以絕對值形式呈現 SHAP 重要性。
在 SHAP importance 圖表中,彙總了列層級值。這可讓您理解資料子集內的特徵影響。
二進位分類和迴歸實驗
在二進位分類或迴歸實驗中,每個模型版本的 SHAP importance 圖表是顯示實驗中每個特徵之平均絕對 SHAP 值的長條圖。SHAP importance 從最高至最低值排序。圖表指示哪些特徵對目標的預測結果有最大和最小的影響,無論判定的結果是什麼。
多類別分類實驗
在多類別分類實驗中,有多個呈現 SHAP importance 圖表的選項。有下列選項:
以整體呈現的特徵 SHAP
依分類分隔的特徵 SHAP 值
單一分類 SHAP importance 圖表
以整體呈現的特徵 SHAP
依照預設,將會透過所有分類:平均特徵 SHAP 設定來設定 SHAP 重要性圖表。
此設定顯示每個特徵的 SHAP importance,無論目標的預測結果是什麼。圖表中的特徵依整體平均絕對 SHAP 值排序,不是依分類分隔。
依分類分隔的特徵 SHAP 值
若要顯示每個特徵對目標結果 (實驗中每個分類的值) 的影響程度,選取依分類的特徵 SHAP 設定。設定可以設定為分組或堆疊。實驗中每個分類的平均絕對 SHAP 值以不同的顏色呈現,以便依分類比較。
例如,假設實驗中的目標欄位有四個可能分類,或結果 (紫色方案、綠色方案、藍色方案或紅色方案)。每個特徵的多色長條將會針對這四個可能的實驗結果,分解該特徵對每個可能實驗結果的影響程度。若您查看長條總長,將會看見該特徵對目標預測的整體影響,無論預測結果如何都是如此。
單一分類 SHAP importance 圖表
您也可以選擇檢視每個可能的目標預測結果的 SHAP importance 圖表。會呈現單一分類預測結果的平均絕對 SHAP 值。
例如,若實驗的目標有四個可能的結果,您可以檢視四個獨立的圖表,針對產生每個可能結果的預測分解最具影響力的特徵。
SHAP 值計算
會為各種演算法計算 SHAP 值。SHAP importance 使用兩個相異的方法來計算:
樹狀 SHAP:快速且確切的方法,用來預估樹狀模型的 SHAP 值
線性 SHAP:用來運算線性模型 SHAP 值的方法
演算法 | 支援的模型類型 | SHAP 計算方法 |
---|---|---|
隨機樹系分類 | 二進位分類、多類別分類 | 樹狀 SHAP |
XGBoost 分類 | 二進位分類、多類別分類 | 樹狀 SHAP |
LightGBM 分類 | 二進位分類、多類別分類 | 樹狀 SHAP |
CatBoost 分類 | 二進位分類、多類別分類 | 樹狀 SHAP |
邏輯迴歸 | 二進位分類、多類別分類 | 線性 SHAP |
套索迴歸 | 二進位分類、多類別分類 | 線性 SHAP |
彈性網迴歸 | 二進位分類、多類別分類 | 線性 SHAP |
高斯貝氏機率分類 | 二進位分類、多類別分類 | SHAP 未計算 |
CatBoost 迴歸 | 迴歸 | 樹狀 SHAP |
LightGBM 迴歸 | 迴歸 | 樹狀 SHAP |
線性迴歸 | 迴歸 | 線性 SHAP |
隨機樹系迴歸 | 迴歸 | 樹狀 SHAP |
SGD 迴歸 | 迴歸 | 線性 SHAP |
XGBoost 迴歸 | 迴歸 | 樹狀 SHAP |
關鍵驅動因素分析
您可以直接在 Qlik Sense 應用程式中建立關鍵驅動因素分析,以便在為特定業務或績效指標判定觀察到的資料時,比較特定因素的重要性。關鍵驅動因素分析的運作方式是針對每個考量的因素,在列層級計算 SHAP 值,並以彙總形式顯示。這可讓您在高層級檢視應用程式資料中驅動趨勢和行為的內容。您可以使用關鍵驅動因素分析的結果,以提升組織的資料素養,並做出資訊更充分、更有效的決策。
如需詳細資訊,請參閱 使用關鍵驅動因素分析發現資料背後的關鍵影響因素。