実験トレーニングにおける SHAP Importance を理解する
SHAP Importance は、実験で作成された予測に関する重要なインサイトを提供します。この情報により、予測に最も重要な特徴量を理解できるようになります。
SHAP 値は、その行の他のすべての特徴量を考慮した場合に、各特徴量がターゲットの予測値にどの程度寄与するかを表します。
実験バージョンをトレーニングした後、モデルを選択します。表の下の [モデル] タブにある SHAP Importance チャートは、ホールドアウト (テスト) データから作成されたモデル予測による SHAP データを視覚化したものです。
このヘルプ トピックは、実験トレーニングにおける SHAP Importance に焦点を当てています。予測中に生成される SHAP Importance データセットについては、「予測中に SHAP データセットを生成する」を参照してください。
概要
SHAP Importance は行レベルで測定されます。これは、その行の他の特徴量およびデータセットの平均結果に対して、1 つの行の予測に特徴量がどのような影響を与えるかを表します。値には方向と大きさの両方がありますが、モデルのトレーニングでは、SHAP Importance は絶対値の形式で表されます。
SHAP Importance チャートでは、行レベルの値が集計されます。これにより、データのサブセットにおける特徴量の影響を理解できます。
二項分類と回帰実験
二項分類または回帰実験では、各モデル バージョンの SHAP importance チャートは、実験内の各特徴量の SHAP 平均絶対値を表示する棒グラフです。SHAP importance では、値が降順に並べ替えられています。チャートは、結果がどうなるかにかかわらず、どの特徴量がターゲットの予測される結果に最大また最小の影響を及ぼしているかを示します。
多項分類実験
多項分類実験では、SHAP importance チャートをプレゼンテーションするオプションが複数あります。オプションは次のとおりです。
合計として表示された特徴量 SHAP
クラスごとに区切られた特徴量 SHAP 値
単一クラス SHAP importance チャート
合計として表示された特徴量 SHAP
既定では、SHAP importance チャートは [全クラス: 平均特徴量 SHAP] 設定を使用して構成されます。
ターゲットの予測される結果にかかわらず、この構成は各特徴量の SHAP importance を表示します。チャートの特徴量は SHAP 平均絶対値の合計別に並び替えられ、クラスごとには区切られません。
クラスごとに区切られた特徴量 SHAP 値
実験内にある各クラスの値としてターゲットの結果に対する各特徴量の影響度を表示するには、[クラスごとの特徴量 SHAP] 設定を選択します。構成は、[グループ化] または [積み上げ] のいずれかに設定できます。実験内にある各クラスの SHAP 平均絶対値は異なる色で表示され、クラスごとに比較することができます。
例えば、実験内のターゲット項目に 4 つの考えられるクラス、または結果 (紫色のプラン、緑色のプラン、青色のプラン、または赤色のプラン) があるとします。各特徴量のマルチカラーの棒は、実験の考えられる 4 つの結果それぞれに対して特徴量が及ぼす影響度の内訳を示します。棒の全長を見ると、予測される結果にかかわらず、特徴量がターゲットの予測に対して及ぼす影響度の合計を知ることができます。
単一クラス SHAP importance チャート
ターゲット予測の考えれらる各結果の SHAP importance チャートを表示するオプションもあります。単一クラスの予測される結果の SHAP 平均絶対値が表示されます。
例えば、実験のターゲットに考えられる結果が 4 つある場合は、考えられる 4 つの結果それぞれに、予測に対する影響度が最も大きい特徴量の内訳を示す 4 つの個別のチャートが表示されます。
SHAP 値の計算
SHAP 値はさまざまなアルゴリズムで計算されます。SHAP importance は、2 つの異なる方法を使用して計算されます。
Tree SHAP: ツリー モデルの SHAP 値を高速かつ正確に推定する手法
Linear SHAP: 線形モデルの SHAP 値を計算する手法
アルゴリズム | サポートされているモデル タイプ | SHAP 計算の手法 |
---|---|---|
ランダム フォレスト分類 | 二項分類、多項分類 | Tree SHAP |
XGBoost 分類 | 二項分類、多項分類 | Tree SHAP |
LightGBM 分類 | 二項分類、多項分類 | Tree SHAP |
CatBoost 分類 | 二項分類、多項分類 | Tree SHAP |
ロジスティック回帰 | 二項分類、多項分類 | Linear SHAP |
ラッソ回帰 | 二項分類、多項分類 | Linear SHAP |
エラスティック ネット回帰 | 二項分類、多項分類 | Linear SHAP |
ガウス ナイーブ ベイズ | 二項分類、多項分類 | SHAP は計算されない |
CatBoost 回帰 | 回帰 | Tree SHAP |
LightGBM 回帰 | 回帰 | Tree SHAP |
線形回帰 | 回帰 | Linear SHAP |
ランダム フォレスト回帰 | 回帰 | Tree SHAP |
SGD 回帰 | 回帰 | Linear SHAP |
XGBoost 回帰 | 回帰 | Tree SHAP |
キー ドライバー分析
Qlik Sense アプリで直接キー ドライバー分析を作成し、特定のビジネスまたはパフォーマンス指標について観測されるデータを決定する上で、特定の要因の重要性を比較できます。キー ドライバー分析は、考慮されている各要因の行レベルで SHAP 値を計算し、それらを集計形式で表示することによって機能します。これにより、アプリ データの傾向と動作の原動力についての概要が得られます。キー ドライバー分析の結果を使用して、組織のデータ リテラシーを強化し、より多くの情報に基づいた効果的な意思決定を実行できます。
詳細については、「キー ドライバー分析を使用して、データの背後にある影響力を持つ指標を明らかにする」を参照してください。