permutation importance 이해

permutation importance는 기능이 모델의 전체 예측에 얼마나 중요한지를 측정한 것입니다. 즉, 해당 기능에서 학습하는 기능을 제거할 경우 모델이 어떤 영향을 받는지를 측정합니다. 메트릭은 포함할 기능과 알고리즘을 변경하여 모델을 구체화하는 데 도움이 될 수 있습니다.

permutation importance는 scikit-learn permutation importance를 사용하여 계산됩니다. 특성을 치환한 후 모델 점수의 감소를 측정합니다.

이 경우 모델이 예측을 위해 기능에 의존하기 때문에 해당 값을 섞으면 모델 점수가 감소하는 경우 기능이 "중요"합니다.
해당 값을 섞어도 모델 성능이 변경되지 않는 경우 이 경우 모델이 예측을 위해 기능을 무시했기 때문에 기능은 "중요하지 않음"입니다.

permutation importance 차트에서 기능은 가장 큰 영향(모델 성능에 가장 큰 영향)에서 가장 낮은 영향(모델 성능에 가장 작은 영향) 순으로 표시됩니다. 막대 크기는 각 기능의 중요도를 나타냅니다.

permutation importance 차트는 실험 중에 교육된 각 모델에 대해 자동 생성됩니다. 차트는 모델 탭에 표시됩니다.

permutation importance를 사용하여 특성 열 선택

모델 교육을 반복할 때 permutation importance를 확인하여 유지할 열과 제외할 열을 확인할 수 있습니다. 여러 모델에 가장 중요한 기능이 무엇인지 기록해 둡니다. 이는 예측 가치가 가장 높고 모델을 구체화할 때 유지할 수 있는 좋은 후보가 될 수 있습니다. 마찬가지로 목록의 맨 아래에 지속적으로 있는 기능은 예측 가치가 많지 않으며 제외하기에 좋은 후보일 수 있습니다.

한 알고리즘의 점수가 다른 알고리즘보다 훨씬 높으면 해당 알고리즘의 permutation importance 차트에 집중하십시오. 여러 알고리즘의 점수가 비슷한 경우 해당 알고리즘의 permutation importance 차트를 비교할 수 있습니다.

permutation importance를 사용하여 알고리즘 선택

각 알고리즘에는 교육 데이터에서 패턴을 학습하는 고유한 접근 방식이 있습니다. 실험은 특정 데이터 집합에 가장 적합한 접근 방식을 확인하기 위해 여러 알고리즘으로 교육됩니다. 서로 다른 접근 방식은 서로 다른 알고리즘에 대한 permutation importance의 변화에 의해 반영됩니다. 예를 들어, 기능 A는 로지스틱 회귀 모델에 가장 중요할 수 있지만 기능 B는 동일한 데이터에 대한 XGBoost 분류의 접근 방식에 가장 중요합니다. 일반적으로 예측력이 높은 기능은 알고리즘 전체에서 최고의 기능이 될 것으로 예측되지만 일반적으로 변형이 나타납니다.

점수가 비슷한 알고리즘 중에서 선택할 때 permutation importance에서 이 변형을 사용할 수 있습니다. 특정 비즈니스 지식을 고려할 때 더 직관적인 최고의 기능이 포함된 알고리즘을 선택하십시오.

permutation importance의 가용성

실험에 무료 문자 기능을 포함하면 실험의 복잡성과 실험 실행에 필요한 프로세스가 늘어납니다. 무료 문자 데이터가 충분히 복잡한 경우 결과 모델에 대해 permutation importance 차트를 사용하지 못할 수도 있습니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.