실험 교육에서 SHAP importance 이해
SHAP importance는 실험에서 만들어진 예측에 대한 중요한 통찰력을 제공합니다. 예측에 가장 중요한 기능을 이해하는 데 도움이 될 수 있습니다.
SHAP 값은 해당 행의 다른 모든 기능을 고려할 때 각 기능이 대상의 예측 값에 기여하는 정도를 나타냅니다.
실험 버전을 교육한 후 모델을 선택합니다. 테이블 아래의 모델 탭에 있는 SHAP importance 차트는 홀드아웃(테스트) 데이터에서 만들어진 모델 예측의 SHAP 데이터를 시각화합니다.
이 도움말 항목은 실험 교육에서 SHAP importance에 중점을 둡니다. 예측 중에 생성된 SHAP importance 데이터 집합에 대한 자세한 내용은 예측 중 SHAP 데이터 집합 생성을 참조하십시오.
개요
SHAP importance는 행 수준에서 측정됩니다. 해당 행의 다른 기능 및 데이터 집합의 평균 결과와 관련하여 단일 행의 예측에 미치는 기능의 영향을 나타냅니다. 값에는 방향과 크기가 모두 있지만 모델 교육의 경우 SHAP importance는 절대값 형식으로 표시됩니다.
SHAP importance 차트에서 행 수준 값이 집계됩니다. 이를 통해 데이터 하위 집합 내에서 기능이 미치는 영향을 이해할 수 있습니다.
이진 분류 및 회귀 실험
이진 분류 또는 회귀 실험에서 각 모델 버전의 SHAP importance 차트는 실험의 각 기능에 대한 평균 절대 SHAP 값을 표시하는 막대형 차트입니다. SHAP 중요성은 가장 높은 값에서 가장 낮은 값으로 정렬됩니다. 차트는 확인된 결과에 관계없이 대상의 예측 결과에 가장 많은 영향을 미치는 기능과 가장 적은 영향을 미치는 기능을 나타냅니다.
다중 클래스 분류 실험
다중 클래스 분류 실험에는 SHAP importance 차트를 표시하기 위한 여러 옵션이 있습니다. 다음과 같은 옵션이 있습니다.
합계로 표시되는 기능 SHAP
클래스별로 구분된 기능 SHAP 값
단일 클래스 SHAP importance 차트
합계로 표시되는 기능 SHAP
기본적으로 SHAP importance 차트는 모든 클래스: 평균 기능 SHAP 설정으로 구성됩니다.
이 구성은 대상의 예측 결과에 관계없이 각 기능의 SHAP importance를 보여 줍니다. 차트의 기능은 총 평균 절대 SHAP 값으로 정렬되며 클래스로 구분되지 않습니다.
클래스별로 구분된 기능 SHAP 값
각 기능이 실험에서 각 클래스의 값이 되는 대상의 결과에 미치는 영향을 표시하려면 클래스별 기능 SHAP 설정을 선택합니다. 구성은 그룹화 또는 누적으로 설정할 수 있습니다. 실험의 각 클래스에 대한 평균 절대 SHAP 값은 클래스별로 비교할 수 있도록 다른 색으로 표시됩니다.
예를 들어, 실험의 대상 필드에 가능한 클래스 또는 결과(보라색 계획, 녹색 계획, 파란색 계획 또는 빨간색 계획)가 있다고 가정해 보겠습니다. 각 기능에 대한 여러 색 막대는 해당 기능이 실험의 가능한 네 가지 결과 각각에 얼마나 많은 영향을 미쳤는지 분석합니다. 막대의 총 길이를 보면 예측 결과와 상관없이 기능이 대상의 예측에 미치는 총 영향을 볼 수 있습니다.
단일 클래스 SHAP importance 차트
또한 대상 예측의 가능한 각 결과에 대한 SHAP importance 차트를 볼 수 있는 옵션도 있습니다. 단일 클래스의 예측 결과에 대한 평균 절대 SHAP 값이 표시됩니다.
예를 들어, 실험 대상에 네 가지 가능한 결과가 있는 경우 예측에 가장 영향을 미치는 기능을 세분화하여 네 가지 가능한 결과를 각각 도출하는 별도의 차트 4개를 볼 수 있습니다.
SHAP 값의 계산
SHAP 값은 다양한 알고리즘에 대해 계산됩니다. SHAP importance는 두 가지 고유한 방법을 사용하여 계산됩니다.
트리 SHAP: 트리 모델의 SHAP 값을 추정하는 빠르고 정확한 방법
선형 SHAP: 선형 모델에 대한 SHAP 값을 계산하는 방법
알고리즘 | 지원되는 모델 유형 | SHAP 계산 방법 |
---|---|---|
임의 포리스트 분류 | 이진 분류, 다중 클래스 분류 | 트리 SHAP |
XGBoost 분류 | 이진 분류, 다중 클래스 분류 | 트리 SHAP |
LightGBM 분류 | 이진 분류, 다중 클래스 분류 | 트리 SHAP |
Catboost 분류 | 이진 분류, 다중 클래스 분류 | 트리 SHAP |
로지스틱 회귀 | 이진 분류, 다중 클래스 분류 | 선형 SHAP |
Lasso 회귀 | 이진 분류, 다중 클래스 분류 | 선형 SHAP |
Elastic Net 회귀 | 이진 분류, 다중 클래스 분류 | 선형 SHAP |
가우시안 나이브 베이즈(Gaussian Naive Bayes) | 이진 분류, 다중 클래스 분류 | SHAP 계산되지 않음 |
Catboost 회귀 | 회귀 | 트리 SHAP |
LightGBM 회귀 | 회귀 | 트리 SHAP |
선형 회귀 | 회귀 | 선형 SHAP |
임의 포리스트 회귀 | 회귀 | 트리 SHAP |
SGD 회귀 | 회귀 | 선형 SHAP |
XGBoost 회귀 | 회귀 | 트리 SHAP |
주요 동인 분석
Qlik Sense 앱에서 직접 키 드라이버 분석을 만들어 특정 비즈니스 또는 성과 메트릭에 대해 관찰된 데이터를 결정할 때 특정 요인의 중요성을 비교할 수 있습니다. 키 드라이버 분석은 고려 중인 각 요소에 대해 행 수준에서 SHAP 값을 계산하고 이를 집계된 형식으로 표시하는 방식으로 작동합니다. 이를 통해 앱 데이터의 추세와 동작을 주도하는 요소에 대한 높은 수준의 보기를 제공합니다. 키 드라이버 분석 결과를 사용하여 조직의 데이터 활용 능력을 향상하고 보다 정보에 입각한 효과적인 결정을 내릴 수 있습니다.
자세한 내용은 키 드라이버 분석을 사용하여 데이터 뒤에 숨은 주요 영향 요인 찾기를 참조하십시오.