実験トレーニングにおける SHAP Importance を理解する

SHAP Importance は、実験で作成された予測に関する重要なインサイトを提供します。この情報により、予測に最も重要な特徴量を理解できるようになります。

SHAP 値は、その行の他のすべての特徴量を考慮した場合に、各特徴量がターゲットの予測値にどの程度寄与するかを表します。

実験バージョンをトレーニングした後、モデルを選択します。表の下の [モデル] タブにある SHAP Importance チャートは、ホールドアウト (テスト) データから作成されたモデル予測による SHAP データを視覚化したものです。

このヘルプトピックは、実験トレーニングにおける SHAP Importance に焦点を当てています。予測中に生成される SHAP Importance データセットについては、「予測中に SHAP データセットを生成する」を参照してください。

概要

SHAP Importance は行レベルで測定されます。これは、その行の他の特徴量およびデータセットの平均結果に対して、1 つの行の予測に特徴量がどのような影響を与えるかを表します。値には方向と大きさの両方がありますが、モデルのトレーニングでは、SHAP Importance は絶対値の形式で表されます。

SHAP Importance チャートでは、行レベルの値が集計されます。これにより、データのサブセットにおける特徴量の影響を理解できます。

二項分類と回帰実験

二項分類または回帰実験では、各モデルバージョンの SHAP importance チャートは、実験内の各特徴量の SHAP 平均絶対値を表示する棒グラフです。SHAP importance では、値が降順に並べ替えられています。チャートは、結果がどうなるかにかかわらず、どの特徴量がターゲットの予測される結果に最大また最小の影響を及ぼしているかを示します。

クリックしてフルサイズを表示 — 二項分類モデルのトレーニング中に表示される SHAP importance チャート

多項分類実験

多項分類実験では、SHAP importance チャートをプレゼンテーションするオプションが複数あります。オプションは次のとおりです。

合計として表示された特徴量 SHAP
クラスごとに区切られた特徴量 SHAP 値
単一クラス SHAP importance チャート

合計として表示された特徴量 SHAP

既定では、SHAP importance チャートは [全クラス: 平均特徴量 SHAP] 設定を使用して構成されます。

ターゲットの予測される結果にかかわらず、この構成は各特徴量の SHAP importance を表示します。チャートの特徴量は SHAP 平均絶対値の合計別に並び替えられ、クラスごとには区切られません。

クラスごとに区切られた特徴量 SHAP 値

実験内にある各クラスの値としてターゲットの結果に対する各特徴量の影響度を表示するには、[クラスごとの特徴量 SHAP] 設定を選択します。構成は、[グループ化] または [積み上げ] のいずれかに設定できます。実験内にある各クラスの SHAP 平均絶対値は異なる色で表示され、クラスごとに比較することができます。

例えば、実験内のターゲット項目に 4 つの考えられるクラス、または結果 (紫色のプラン、緑色のプラン、青色のプラン、または赤色のプラン) があるとします。各特徴量のマルチカラーの棒は、実験の考えられる 4 つの結果それぞれに対して特徴量が及ぼす影響度の内訳を示します。棒の全長を見ると、予測される結果にかかわらず、特徴量がターゲットの予測に対して及ぼす影響度の合計を知ることができます。

単一クラス SHAP importance チャート

ターゲット予測の考えれらる各結果の SHAP importance チャートを表示するオプションもあります。単一クラスの予測される結果の SHAP 平均絶対値が表示されます。

例えば、実験のターゲットに考えられる結果が 4 つある場合は、考えられる 4 つの結果それぞれに、予測に対する影響度が最も大きい特徴量の内訳を示す 4 つの個別のチャートが表示されます。

SHAP 値の計算

SHAP 値はさまざまなアルゴリズムで計算されます。SHAP importance は、2 つの異なる方法を使用して計算されます。

Tree SHAP: ツリーモデルの SHAP 値を高速かつ正確に推定する手法
Linear SHAP: 線形モデルの SHAP 値を計算する手法

モデルタイプおよび SHAP 計算の手法で利用できるアルゴリズム
アルゴリズム	サポートされているモデルタイプ	SHAP 計算の手法
ランダムフォレスト分類	二項分類、多項分類	Tree SHAP
XGBoost 分類	二項分類、多項分類	Tree SHAP
LightGBM 分類	二項分類、多項分類	Tree SHAP
CatBoost 分類	二項分類、多項分類	Tree SHAP
ロジスティック回帰	二項分類、多項分類	Linear SHAP
ラッソ回帰	二項分類、多項分類	Linear SHAP
エラスティックネット回帰	二項分類、多項分類	Linear SHAP
ガウスナイーブベイズ	二項分類、多項分類	SHAP は計算されない
CatBoost 回帰	回帰	Tree SHAP
LightGBM 回帰	回帰	Tree SHAP
線形回帰	回帰	Linear SHAP
ランダムフォレスト回帰	回帰	Tree SHAP
SGD 回帰	回帰	Linear SHAP
XGBoost 回帰	回帰	Tree SHAP

キードライバー分析

Qlik Sense アプリで直接キードライバー分析を作成し、特定のビジネスまたはパフォーマンス指標について観測されるデータを決定する上で、特定の要因の重要性を比較できます。キードライバー分析は、考慮されている各要因の行レベルで SHAP 値を計算し、それらを集計形式で表示することによって機能します。これにより、アプリデータの傾向と動作の原動力についての概要が得られます。キードライバー分析の結果を使用して、組織のデータリテラシーを強化し、より多くの情報に基づいた効果的な意思決定を実行できます。

詳細については、「キードライバー分析を使用して、データの背後にある影響力を持つ指標を明らかにする」を参照してください。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください