사용자에게 가장 적합한 모델 선택
실험 결과를 분석할 때는 사용 사례에 중요한 특정 특성을 갖춘 모델을 찾아야 합니다. 예를 들어, 지속적으로 정확한 예측을 제공하는 것 외에도 빠르게 예측을 제공할 수 있는 모델이 필요할 수도 있습니다. 실험의 모델 탭에서는 다양한 분석 각도에 따라 모델이 권장됩니다.
실험을 위한 최상위 모델 분석
사용자의 필터를 기반으로 여러 가지 품질 관점을 고려하는 데 도움이 되는 권장 모델이 제시됩니다. 한 명의 모델이 여러 면에서 최상위 모델로 간주될 수 있습니다. 최상위 모델 유형은 다음과 같습니다.
사용자 인터페이스에서 최상위 모델 보기
실험에서 최상위 모델을 찾고 탐색하는 방법에 대한 자세한 내용은 모델 메트릭 테이블 분석을 참조하십시오.
가장 좋은 모델
선택한 필터를 기반으로 분석을 위한 가장 적합한 모델이 자동으로 선택됩니다. 가장 적합한 모델은 아이콘으로 강조 표시됩니다.
Qlik 프로젝트에서는 정확도 측정 기준과 예측 속도를 고려한 균형 있는 계산을 통해 가장 적합한 모델이 결정됩니다.
가장 적합한 모델을 결정하기 위해 다음 프로세스가 자동으로 수행됩니다.
-
모델 유형에 따라 결정되는 예측 성능 메트릭에 대해 가장 높은 점수를 받은 모델을 선택합니다. 사용된 메트릭은 다음과 같습니다.
-
이진 분류: F1
-
다중 클래스 분류: F1 매크로
-
회귀: R2
-
시계열: MASE(MASE를 사용할 수 없는 경우 MAE)
-
-
1단계의 성능 채점을 사용하여 가장 높은 채점을 받은 모델의 채점에서 5% 이내에 있는 모든 모델을 선택합니다.
-
선택한 모든 모델 중에서 가장 빠른 예측 속도를 가진 모델을 선택합니다(예측 속도 참조). 이 모델이 가장 적합한 모델입니다.
가장 정확함
모델이 일관되게 높은 정확도로 예측을 생성할 수 있어야 합니다. F1, F1 Macro, R2는 모델 정밀도를 종합적으로 반영하는 균형 있는 채점을 제공하지만, 모델의 원시 정밀도 및 정밀도 메트릭에도 관심이 있을 수 있습니다.
가장 정확한 모델은 아이콘으로 강조 표시됩니다. 가장 정확한 모델을 결정하기 위해 다음 프로세스가 자동으로 수행됩니다.
-
모델 유형에 따라 결정되는 예측 성능 메트릭에 대해 가장 높은 점수를 받은 모델을 선택합니다. 사용된 메트릭은 다음과 같습니다.
-
1단계의 성능 채점을 사용하여 가장 높은 채점을 받은 모델의 채점에서 10% 이내에 있는 모든 모델을 선택합니다.
-
모델 유형에 따라 다음 두 경로 중 하나가 사용됩니다.
-
이진 분류:
-
다중 클래스 분류 또는 회귀:
-
시계열: 가장 좋은(가장 낮은) MAE 점수를 가진 모델을 선택합니다.
-
가장 빠른 모델
모델을 선택할 때, 모델이 얼마나 빨리 예측을 제공할 수 있는지에 가치를 두는 것이 좋습니다. 가장 빠른 모델은 아이콘으로 강조 표시됩니다.
예측 속도는 어떤 모델이 가장 빠른지를 결정합니다. 하지만 모델의 예측 정확도는 여전히 고려 대상입니다. 모델은 빠르게 예측을 생성할 수 있어야 하지만, 동시에 적절한 정확도로 예측할 수 있어야 하기 때문입니다.
가장 빠른 모델을 결정하기 위해 다음 프로세스가 자동으로 수행됩니다.
-
모델 유형에 따라 결정되는 예측 성능 메트릭에 대해 가장 높은 점수를 받은 모델을 선택합니다. 사용된 메트릭은 다음과 같습니다.
-
모델 유형에 따라 다음 경로 중 하나가 사용됩니다.
-
선택한 모든 모델 중에서 가장 빠른 예측 속도를 가진 모델을 선택합니다(예측 속도 참조). 이 모델이 가장 빠른 모델입니다.
예측 속도
예측 속도는 모든 모델 유형에 적용되는 모델 메트릭입니다: 이진 분류, 다중 클래스 분류, 회귀, 그리고 시계열. 예측 속도는 기계 학습 모델이 얼마나 빨리 예측을 생성할 수 있는지 측정합니다.
Qlik 프로젝트에서는 결합된 기능 계산 시간과 테스트 데이터 집합 예측 시간을 사용하여 예측 속도가 계산됩니다. 초당 행으로 표시됩니다.
실험 버전을 실행한 후 모델 메트릭 테이블에서 예측 속도를 분석할 수 있습니다. 포함된 분석 기능을 사용하여 모델을 분석할 때 예측 속도 데이터도 볼 수 있습니다. 자세한 내용은 다음을 참조하십시오.
고려사항
측정된 예측 속도는 예측이 이루어진 데이터 자체가 아닌 교육 데이터 집합의 크기에 따라 결정됩니다. 모델을 배포한 후, 교육 데이터와 예측 데이터의 크기가 크게 다르거나 하나 또는 소수의 데이터 행에 대한 실시간 예측을 만드는 경우 예측이 만들어지는 속도에 차이가 있음을 알 수 있습니다.
과적합
과적합은 모델의 예측 동작이 교육 데이터 집합에 너무 밀접하게 매핑될 때 발생합니다. 모델이 과적합되면 교육 데이터 집합에 기억된 패턴만 있을 가능성이 높으며, 미래 값을 정확하게 예측할 수 없습니다.
과적합에는 여러 가지 원인이 있을 수 있는데, 여기에는 교육 알고리즘과 관련된 문제나 지나치게 짧거나 복잡한 교육 데이터 집합이 포함됩니다.
Qlik 프로젝트에서 과적합은 예측 속도를 제외하고 최상위 모델 선택 프로세스에 사용된 모든 메트릭에 대한 테스트 교육 결과 분석을 통해 자동으로 식별됩니다.
테스트 결과와 교육 결과를 비교할 때 이러한 메트릭 간에 10% 이상의 차이가 있는 경우 해당 모델이 과적합된 것으로 의심됩니다.
모델이 과적합되었다는 의심이 들면, 점수가 높더라도 결코 권장 모델로 제시되지 않습니다. 해당 모델은 모델 메트릭 테이블에서 경고 로 표시됩니다.
필터에 표시된 모든 모델이 과적합된 것으로 의심되는 경우 모델 권장이 제공되지 않습니다.
과적합 해결
과적합은 다음과 같은 방법으로 해결할 수 있습니다.
-
과적합이 의심되는 모델은 배포하지 않습니다.
-
학습 데이터 집합에 문제가 있다고 의심되는 경우 교육을 위해 데이터 집합 준비하기를 참조하여 과적합을 방지하기 위해 학습 데이터를 준비하는 방법에 대해 알아봅니다.