기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

홀드아웃 데이터 및 교차 유효성 검사

예측 분석의 가장 큰 과제 중 하나는 교육된 모델이 이전에 본 적이 없는 데이터에서 어떻게 수행되는지 알아내는 것입니다. 다시 말해 모델이 교육 데이터를 단순히 암기한 것과 비교하여 실제 패턴을 얼마나 잘 학습했는지를 나타냅니다. 홀드아웃 데이터 및 교차 유효성 검사는 모델이 단순히 암기하는 것이 아니라 실제로 일반화된 패턴을 학습하는지 유효성 검사하는 효과적인 기술입니다.

암기와 일반화를 위한 테스트 모델

모델이 실제 세계에서 얼마나 잘 작동하는지 묻는 것은 모델이 암기하는지 또는 일반화하는지 묻는 것과 같습니다. 암기력은 과거에 일어난 일을 완벽하게 기억하는 능력입니다. 암기하는 모델은 초기 교육 시 높은 점수를 받을 수 있지만 새 데이터에 적용하면 예측 정확도가 크게 떨어집니다. 대신 일반화하는 모델을 원합니다. 일반화는 일반적인 패턴을 배우고 적용하는 능력입니다. 교육 데이터에서 진정한 더 광범위한 패턴을 학습함으로써 일반화된 모델은 이전에 본 적이 없는 새로운 데이터에 대해 동일한 품질 예측을 할 수 있습니다.

자동 홀드아웃 데이터

홀드아웃은 교육하는 동안 모델에서 "숨겨진" 후 모델 스코어링에 사용되는 임의로 선택된 데이터입니다. 홀드아웃은 교육에 사용되지 않은 데이터에 대한 정확도 메트릭을 생성하여 모델이 미래 예측에서 어떻게 수행되는지 시뮬레이션합니다. 마치 모델을 구축하고 배포한 다음 실제로 발생한 일과 관련하여 예측을 관찰할 때까지 기다릴 필요 없이 예측을 모니터링하는 것과 같습니다.

데이터 집합은 교육 데이터와 홀드아웃 데이터로 분할됩니다.

교육 데이터와 홀드아웃 데이터의 비율.

교차 유효성 검사

교차 유효성 검사의 관행은 데이터 집합을 가져 와서 접기라는 짝수 세그먼트로 임의로 분할하는 것입니다. 기계 학습 알고리즘은 한 겹을 제외하고 모두 교육됩니다. 그런 다음 교차 유효성 검사는 다른 모든 접기에 대해 교육된 모델에 대해 각 접기를 테스트합니다. 이는 교육된 각 모델이 이전에 본 적이 없는 데이터 세그먼트에서 테스트됨을 의미합니다. 교육 중에 다른 접기를 숨기고 프로세스를 반복한 다음 모든 접기가 테스트로 정확히 한 번 사용되고 다른 모든 반복 동안 교육될 때까지 테스트합니다.

교육 데이터는 5개의 접기로 나뉩니다. 반복할 때마다 다른 접기가 테스트 데이터로 사용되도록 따로 보관됩니다.

교육 데이터는 5개의 접기로 분할되고 5번 반복됩니다.

교차 유효성 검사의 결과는 교육된 모델이 이전에 본 적이 없는 데이터를 얼마나 정확하게 예측할 수 있는지에 대한 합리적인 예측을 제공하는 일련의 테스트 메트릭입니다.

자동 홀드아웃 및 교차 유효성 검사의 작동 방법

AutoML은 모델 교육 중에 5개의 접기 교차 유효성 검사를 사용하여 모델 성능을 시뮬레이션합니다. 그런 다음 교육 데이터의 별도 홀드아웃에 대해 모델을 테스트합니다. 이렇게 하면 서로 다른 알고리즘이 얼마나 잘 수행되는지 평가하고 비교할 수 있는 채점 메트릭이 생성됩니다.

  1. 실험 교육이 시작되기 전에 null이 아닌 대상이 있는 데이터 집합의 모든 데이터가 임의로 섞입니다. 데이터 집합의 20%가 홀드아웃 데이터로 추출됩니다. 데이터 집합의 나머지 80%는 교차 유효성 검사를 통해 모델을 교육하는 데 사용됩니다.

  2. 교차 유효성 검사를 준비하기 위해 데이터 집합을 임의로 5개 조각(접기)으로 나눕니다. 그런 다음 모델은 5번 교육되며 매번 모델의 성능을 테스트하기 위해 데이터의 다른 5분의 1을 "숨깁니다". 교육 메트릭은 교차 유효성 검사 중에 생성되며 계산된 값의 평균입니다.

  3. 교육 후 모델은 홀드아웃 데이터에 적용됩니다. 홀드아웃 데이터는 교차 유효성 검사 데이터와 달리 교육 중에 모델에 표시되지 않았기 때문에 모델 교육 성능의 유효성을 검사하는 데 이상적입니다. 홀드아웃 메트릭은 이 최종 모델 평가 중에 생성됩니다.

모델 성능을 분석하는 데 사용되는 메트릭에 대한 자세한 내용은 모델 검토를 참조하십시오.

교육 데이터는 모델을 생성하기 위해 5개의 접기 교차 유효성 검사 중에 사용됩니다. 교육 후 홀드아웃 데이터를 사용하여 모델을 평가합니다.

교육 데이터는 최종 모델 평가를 위한 교차 검증 및 홀드아웃 데이터에 사용됩니다.

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!