이진 분류 모델 채점
이진 분류 모델은 예 또는 아니요와 같은 두 가지 범주로 결과를 배포합니다. 모델이 결과를 얼마나 정확하게 배포하는지 다양한 채점 메트릭에서 평가할 수 있습니다.
메트릭은 모델의 다양한 강점과 약점을 노출합니다. 어떤 메트릭도 그 자체로는 좋은 적합도의 진정한 척도가 될 수 없습니다. 특히 전체 정확도 점수가 높다고 해서 모델이 훌륭하다는 의미는 아니라는 점에 유의해야 합니다. 예를 들어, 비즈니스의 변환율이 10%에 불과한 경우는 어떻습니까? 이 모델은 어떤 리드도 변환하지 않을 것이라고 단순히 가정함으로써 90%의 정확도 점수를 가져올 수 있습니다. 여기에서 모델의 강점과 약점의 균형을 확인할 수 있도록 하는 F1, recall 및 precision이 작용합니다. 모델에서 잠재 고객의 100%가 변환되지 않는다고 가정하면 F1은 0이 됩니다.
이진 분류 실험을 교육하는 동안 모델 점수에 대한 빠른 분석을 제공하기 위해 다음 차트가 자동 생성됩니다.
confusion matrix: 분류 모델의 예측 결과 정확도를 요약한 차트입니다. 혼동 행렬를 참조하십시오.
ROC 곡선: 실제 결과가 긍정적일 때 기계 학습 모델이 긍정적 클래스를 얼마나 잘 예측하는지 보여 주는 차트입니다. AUC 및 ROC 곡선를 참조하십시오.
혼동 행렬
이진 분류 문제에 대한 대부분의 메트릭은 confusion matrix의 값을 다르게 계산하여 생성됩니다. confusion matrix는 모델 탭에 표시되는 시각화 중 하나입니다. 올바르게 예측된 실제 true 및 실제 false 값의 수를 각 클래스의 합계와 함께 보여 줍니다. 차트에 표시되는 값은 교육 후 모델 성능의 유효성을 검사하는 데 사용되는 자동 홀드아웃 데이터를 기반으로 합니다. 데이터 집합의 각 레코드는 사분면 중 하나로 정렬됩니다.
-
진양성(TP)은 true로 올바르게 예측된 실제 true 값입니다.
-
가양성(FP)은 true로 잘못 예측된 실제 false 값입니다.
-
가음성(FN)은 false로 잘못 예측된 실제 true 값입니다.
-
진음성(TN)은 false로 올바르게 예측된 실제 false 값입니다.
각 사분면의 숫자 아래에서 메트릭 recall(TP), fallout(FP), miss rate(FN) 및 specificity(TN)에 대한 백분율 값도 볼 수 있습니다. 메트릭과 함께 도구 설명을 보려면 값 위로 마우스를 가져갑니다.
모든 현실적인 사례는 confusion matrix에서 가양성 및 가음성을 표시합니다. 교육 데이터에 대한 완벽한 예측은 모델이 답변을 암기했으며 실제 세계에서 성능이 좋지 않음을 나타냅니다. 진양성과 진음성을 충분히 포착했는지 확인하고 싶을 것입니다.
F1
F1 점수는 양성 예측과 실제 양성 레코드의 정확도에 초점을 맞춰 클래스가 불균형할 때 정확도를 고려하려는 메트릭입니다. 모델이 중요한 결과를 얼마나 정확하게 포착하는지 볼 수 있습니다. 메트릭은 recall과 precision의 균형을 유지하여 이 둘 사이의 중간에 있는 것을 이상적으로 찾으려고 합니다. 데이터 집합의 불균형이 클수록 F1 점수가 낮아지고 전체 정확도는 동일할 가능성이 높습니다.
F1 값이 높으면 다른 모든 점수 메트릭이 높아집니다. 값이 낮으면 추가 분석이 필요하다는 신호입니다. 그러나 점수가 매우 높거나 홀드아웃 점수가 교차 유효성 검사 점수보다 훨씬 낮은 경우 데이터 유출의 징후일 수 있습니다.
F1은 다음과 같이 계산됩니다. 2 x ((precision x recall) / (precision + recall))
재현율
recall은 진양성 비율입니다. 어떤 것이 실제로 true일 때 모델이 얼마나 자주 true를 정확하게 예측했는지 측정합니다. 즉, 모델이 데이터 집합 내에서 모든 실제 사례를 얼마나 정확하게 찾았습니까? recall은 양성 클래스를 잘 기억하는 측정값입니다. 다음과 같이 계산됩니다. TP /(TP + FN)
정밀도
precision는 양성 예측 값이라고도 합니다. 모델이 true라는 예측을 했을 때 모델이 정확할 확률을 측정합니다. 다음과 같이 계산됩니다. TP /(TP + FP)
recall과 precision 사이의 절충
recall은 모델이 캐스팅하는 그물의 너비로 설명할 수 있습니다. 일부 가양성 예측을 했더라도 모든 참을 포착했습니까? 가능한 한 많은 true를 포착했습니까? precision는 recall과 약간 반대입니다. 여기서 모델이 true를 예측할 때 true를 예측하는 것이 매우 정확하다는 것을 확인하고자 합니다. 그러나 precision가 높으면 true인 경우에도 모델이 false를 예측하는 가음성이 더 많이 발생하게 됩니다.
true인 결과를 누락하지 않는 것과 true으로 예측된 결과가 실제로 false가 아님을 확신하는 것 사이에는 절충점이 있습니다. 더 높은 precision 또는 더 높은 recall에 대한 편향이 권장되는지 여부는 비즈니스 사용 사례에 따라 다릅니다. 예를 들어, 질병 진단 예측에서 실제로 질병에 걸린 환자, 즉 가음성을 누락하지 않도록 해야 합니다.
-
가음성의 "비용"이 높으면 높은 recall로 편향된 모델이 정당화될 수 있습니다.
-
가양성의 "비용"이 높으면 높은 정확도로 편향된 모델이 정당화될 수 있습니다.
정확도
정확도는 모델이 평균적으로 올바른 예측을 한 빈도를 측정합니다. 다음과 같이 계산됩니다. (TP + TN) /(모든 예측)
특이성
specificity는 진음성 비율입니다. 실제로 false일 때 모델이 얼마나 자주 false를 정확하게 예측했는지 측정합니다. 다음과 같이 계산됩니다. TN /(FP + TN)
MCC
Matthews 상관 계수(MCC)의 범위는 -1에서 1까지입니다. 여기서 1은 모델이 모든 샘플을 올바르게 예측했음을 의미합니다. MCC는 다음과 같이 계산됩니다. ((TP x TN) -(FP x FN)) / [(TP + FP) x(FN + TN) x(FP + TN) x(TP + FN)]^(1/2)
누락률
미스 비율은 가음성 비율입니다. 가음성 수와 실제 총 양성 이벤트 수 사이의 비율입니다. 다음과 같이 계산됩니다. FN /(TP + FN)
폴아웃
fallout은 가양성 비율입니다. 가양성 수와 실제 총 음성 이벤트 수 사이의 비율입니다. 다음과 같이 계산됩니다. FP /(FP + TN)
NPV
음성 예측 값(NPV)은 모델이 false라는 예측을 했을 때 모델이 정확할 확률을 측정합니다. 다음과 같이 계산됩니다. TN /(FN + TN)
로그 손실
log loss는 로지스틱 회귀의 정확도에 대한 일반적인 측정값입니다. log loss 값이 낮을수록 우수한 예측을 의미합니다. 완벽한 모델의 log loss는 0입니다.
AUC 및 ROC 곡선
AUC(Area under the Curve)는 모델이 얼마나 결정적인지 이해할 수 있도록 하는 보다 복잡한 정확도 메트릭입니다. 실제 결과가 양성일 때 모델이 양성 클래스를 얼마나 잘 예측하는지 설명합니다.
AUC는 ROC 곡선 아래의 영역으로 정의됩니다. ROC 곡선은 0.0과 1.0 사이의 다양한 threshold에 대한 가양성 비율(x 축) 대 진양성 비율(y 축)을 플로팅합니다. 달리 말하면 적중률에 대한 오경보 비율을 표시합니다. 이 곡선은 클래스 간 분리가 가능한지 이해하는 데 유용하며 데이터가 예측 결과를 정확하게 구별하기에 충분한지 나타냅니다.
진양성 비율은 다음과 같이 계산됩니다. TP /(TP + FN)
-
진양성 비율이 1.0(곡선 아래에서 가능한 최대 영역)에 가까울수록 모델이 더 결정적입니다.
-
진양성 비율이 0.5에 가까울수록 모델이 덜 결정적입니다.
아래 이미지는 양호한 ROC 곡선을 보여 줍니다. 곡선이 가능한 한 1에 가까워야 높은 AUC를 제공하므로 좋습니다. 점선은 임의 기회(50:50)입니다. AUC가 낮으면 곡선이 좋지 않은 곡선으로 간주됩니다.
임계값
threshold는 예측이 true일 확률입니다. 가양성과 가음성 사이의 균형을 나타냅니다. threshold는 알고리즘별로 확인되며 모델의 각 알고리즘에 대해 다른 threshold가 있을 수 있습니다.
threshold 튜닝
threshold 조정은 이진 분류 모델의 F1 점수를 최적화하기 위해 올바른 threshold를 선택하도록 하는 효과적인 방법입니다. AutoML은 0에서 1까지 가능한 수백 가지 threshold에 대한 precision와 recall을 계산합니다. 가장 높은 F1 점수를 달성하는 threshold가 선택됩니다.
기본 0.5 threshold에 의존하지 않고 threshold를 선택하면 양성 사례와 음성 사례의 수에 불균형이 있는 데이터 집합에 대해 더 강력한 예측이 생성됩니다.
차트에서 threshold는 0.5로 설정되어 있습니다. 이 경우 실제로 true이고 0.5 미만으로 예측된 레코드는 false(가음성)라는 예측 레이블을 받았습니다.
레코드가 true인지 false인지를 결정하는 threshold를 변경하여 더 높은 recall 또는 더 높은 정확도로 편향을 가져올 수 있습니다.