홀드아웃 데이터 및 교차 유효성 검사

예측 분석의 가장 큰 과제 중 하나는 교육된 모델이 이전에 본 적이 없는 데이터에서 어떻게 수행되는지 알아내는 것입니다. 다시 말해 모델이 교육 데이터를 단순히 암기한 것과 비교하여 실제 패턴을 얼마나 잘 학습했는지를 나타냅니다. 홀드아웃 데이터 및 교차 유효성 검사는 모델이 단순히 암기하는 것이 아니라 실제로 일반화된 패턴을 학습하는지 유효성 검사하는 효과적인 기술입니다.

실험을 구성할 때 교육 데이터와 홀드아웃 데이터를 임의로 분할할지, 아니면 시간 인식 모델을 만드는 데 사용되는 특수한 방법을 사용할지 선택할 수 있습니다.

암기와 일반화를 위한 테스트 모델

모델이 실제 세계에서 얼마나 잘 작동하는지 묻는 것은 모델이 암기하는지 또는 일반화하는지 묻는 것과 같습니다. 암기력은 과거에 일어난 일을 완벽하게 기억하는 능력입니다. 암기하는 모델은 초기 교육 시 높은 점수를 받을 수 있지만 새 데이터에 적용하면 예측 정확도가 크게 떨어집니다. 대신 일반화하는 모델을 원합니다. 일반화는 일반적인 패턴을 배우고 적용하는 능력입니다. 교육 데이터에서 진정한 더 광범위한 패턴을 학습함으로써 일반화된 모델은 이전에 본 적이 없는 새로운 데이터에 대해 동일한 품질 예측을 할 수 있습니다.

자동 홀드아웃 데이터

홀드아웃은 교육하는 동안 모델에서 "숨겨진" 후 모델 스코어링에 사용되는 데이터입니다. 홀드아웃은 교육에 사용되지 않은 데이터에 대한 정확도 메트릭을 생성하여 모델이 미래 예측에서 어떻게 수행되는지 시뮬레이션합니다. 마치 모델을 구축하고 배포한 다음 실제로 발생한 일과 관련하여 예측을 관찰할 때까지 기다릴 필요 없이 예측을 모니터링하는 것과 같습니다.

Qlik 프로젝트에는 홀드아웃 데이터를 선택하는 두 가지 방법, 즉 기본 방법과 시간 기반 방법이 있습니다.

홀드아웃 데이터 선택의 기본 방법

시간 인식 모델 교육을 켜지 않은 경우, 모델 교육이 시작되기 전에 홀드아웃 데이터가 임의로 선택됩니다.

홀드아웃 및 교차 유효성 검사의 기본 방식에서 교육 데이터와 홀드아웃 데이터의 비율 — 기본적으로 데이터 집합은 임의로 교육 데이터와 보류 데이터로 분할됩니다.

홀드아웃 데이터 선택을 위한 시간 기반 방법

시간 기반 방법을 사용하면 전체 교육 데이터 집합이 먼저 선택한 날짜 인덱스 열에 따라 정렬됩니다. 정렬 후, 홀드아웃 데이터는 나머지 교육 데이터와 분리됩니다. 이 홀드아웃 데이터에는 선택한 인덱스와 관련된 최신 데이터가 포함되어 있습니다.

시간 기반 방식은 시간 인식 모델 및 시계열 모델을 훈련할 때 사용됩니다. 이러한 모델 옵션에 대한 자세한 내용은 시간 인식 모델 만들기 및 시계열 실험 작업를 참조하십시오.

교차 유효성 검사

교차 유효성 검사는 기계 학습 모델이 아직 보지 못한 데이터에 대한 미래 값을 얼마나 잘 예측할 수 있는지 테스트하는 프로세스입니다. 교차 유효성 검사에서는 모델의 교육 데이터를 접기(fold)라고 불리는 여러 개의 세그먼트로 분할합니다. 교육을 반복하는 동안 모델은 하나 이상의 접기에서 교육되며, 적어도 하나의 접기는 항상 교육에 사용되지 않습니다. 각 반복 후에 교육에 사용되지 않은 접기 중 하나를 사용하여 성능이 평가됩니다.

교차 유효성 검사의 결과는 교육된 모델이 이전에 본 적이 없는 데이터를 얼마나 정확하게 예측할 수 있는지에 대한 합리적인 예측을 제공하는 일련의 테스트 메트릭입니다.

Qlik 프로젝트에는 기본 방식과 시간 기반 방식이라는 두 가지 교차 유효성 검사 방법이 있습니다.

기본 교차 유효성 검사

시간 기반 교차 유효성 검사를 사용하도록 교육을 구성하지 않는 한 Qlik 프로젝트은 기본 교차 유효성 검사 방법을 사용합니다. 교차 유효성 검사의 기본 방법은 시계열 차원에 의존하지 않는 모델에 적합합니다. 즉, 모델이 교육 데이터의 특정 시간 기반 열을 고려하여 예측할 필요가 없습니다.

교차 유효성 검사의 기본 방법에서는 데이터 집합을 임의로 여러 개의 균등한 세그먼트인 접기(fold)로 분할합니다. 기계 학습 알고리즘은 하나를 제외한 모든 접기에 대해 모델을 학습합니다. 그런 다음 교차 유효성 검사는 다른 모든 접기에 대해 교육된 모델에 대해 각 접기를 테스트합니다. 이는 교육된 각 모델이 이전에 본 적이 없는 데이터 세그먼트에서 테스트됨을 의미합니다. 교육 중에 다른 접기를 숨기고 프로세스를 반복한 다음 모든 접기가 테스트로 정확히 한 번 사용되고 다른 모든 반복 동안 교육될 때까지 테스트합니다.

자동 보류 및 기본 교차 유효성 검사

기본적으로 Qlik 프로젝트은 모델 성능을 시뮬레이션하기 위해 모델 교육 중에 5개의 접기 교차 유효성 검사를 사용합니다. 그런 다음 교육 데이터의 별도 홀드아웃에 대해 모델을 테스트합니다. 이렇게 하면 서로 다른 알고리즘이 얼마나 잘 수행되는지 평가하고 비교할 수 있는 채점 메트릭이 생성됩니다.

실험 교육이 시작되기 전에 null이 아닌 대상이 있는 데이터 집합의 모든 데이터가 임의로 섞입니다. 데이터 집합의 20%가 홀드아웃 데이터로 추출됩니다. 데이터 집합의 나머지 80%는 교차 유효성 검사를 통해 모델을 교육하는 데 사용됩니다.
교차 유효성 검사를 준비하기 위해 데이터 집합을 임의로 5개 조각(접기)으로 나눕니다. 그런 다음 모델은 5번 교육되며 매번 모델의 성능을 테스트하기 위해 데이터의 다른 5분의 1을 "숨깁니다". 교육 메트릭은 교차 유효성 검사 중에 생성되며 계산된 값의 평균입니다.
교육 후 모델은 홀드아웃 데이터에 적용됩니다. 홀드아웃 데이터는 교차 유효성 검사 데이터와 달리 교육 중에 모델에 표시되지 않았기 때문에 모델 교육 성능의 유효성을 검사하는 데 이상적입니다. 홀드아웃 메트릭은 이 최종 모델 평가 중에 생성됩니다.

모델 성능을 분석하는 데 사용되는 메트릭에 대한 자세한 내용은 모델 검토를 참조하십시오.

홀드아웃 및 교차 유효성 검사의 기본 방법을 보여 주고 5단계 프로세스가 강조 표시된 다이어그램. — 기본 방법에서는 5개의 접기 교차 유효성 검사를 통해 모델을 생성하는 데 교육 데이터가 사용됩니다. 교육 후 홀드아웃 데이터를 사용하여 모델을 평가합니다.

시간 기반 교차 유효성 검사

시간 기반 교차 유효성 검사는 시계열 차원에 따라 데이터를 예측하도록 모델을 교육하는 데 적합합니다. 예를 들어, 과거 판매 데이터가 포함된 데이터 집합을 바탕으로 다음 달 회사의 판매를 예측하려고 합니다. 시간 기반 교차 유효성 검사를 사용하려면 날짜 또는 타임스탬프 정보가 포함된 열이 교육 데이터에 있어야 합니다.

시간 기반 교차 유효성 검사는 시간 인식 모델을 만드는 데 사용됩니다. 실험 구성 패널의 모델 최적화에서 시간 인식 교육을 활성화합니다. 자세한 내용은 실험 구성을 참조하십시오.

시간 기반 교차 유효성 검사를 통해 모델은 미래 날짜에 대한 데이터를 예측하고 있다는 것을 더 잘 이해하도록 교육됩니다.

기본 방식과 마찬가지로 시간 기반 교차 유효성 검사는 교육 데이터를 교육과 테스트에 모두 사용되는 접기로 분리하는 것을 포함합니다. 두 방법 모두 모델은 여러 번의 반복을 통해 교육됩니다. 그러나 시간 기반 방식은 기본 방식과 여러 가지 차이점이 있습니다.

교육 데이터는 선택한 날짜 인덱스에 따라 접기로 정렬되고 구성됩니다. 이와 대조적으로, 기본 교차 유효성 검사는 주어진 접기에 포함될 행을 임의로 선택합니다.
교육 데이터로 사용되는 접기의 수는 교육을 반복할 때마다 점차 증가합니다. 즉, 첫 번째 반복 과정에서는 첫 번째(가장 오래된) 접기만 사용되고, 이후 반복 과정에서는 점차 더 많은 양의 교육 데이터, 최신 데이터가 포함됩니다. 테스트 데이터로 사용되는 접기는 각 반복마다 달라집니다.

이는 각 반복에서 교육 및 테스트 분할에 고정된 데이터 볼륨을 사용하는 기본 교차 유효성 검사 방법(즉, 교육에 4개의 접기, 테스트에 1개의 접기)과 대조됩니다.
전체 교육 데이터 집합이 선택한 인덱스에 따라 정렬되므로 교육된 모델을 테스트하는 데 사용되는 데이터는 항상 모델을 교육하는 데 사용된 데이터보다 최신이거나 최신과 동일한 수준입니다. 모델의 최종 성능 테스트를 수행하는 데 사용되는 자동 홀드아웃 데이터는 항상 나머지 교육 데이터 집합보다 최신이거나 최신과 동일한 수준입니다.

반면, 기본 교차 유효성 검사를 사용하면 교육 데이터보다 오래된 데이터로 모델을 테스트할 수 있으며, 이로 인해 데이터 유출이 발생할 수 있습니다.

자동 홀드아웃 및 시간 기반 교차 유효성 검사

이 절차는 시간 인식 모델이 어떻게 교육되는지 보여 줍니다. 이 프로세스는 기본 교차 유효성 검사 프로세스와 비교하여 차이점과 유사점이 있습니다.

데이터 집합의 모든 데이터는 선택한 날짜 인덱스에 따라 정렬됩니다. 여기에는 교육 데이터와 홀드아웃 데이터가 포함됩니다.
실험 교육이 시작되기 전에 데이터 집합의 20%가 홀드아웃 데이터로 추출됩니다. 이 홀드아웃 데이터는 나머지 데이터 집합보다 최신이거나 나머지 데이터 집합만큼 최신입니다. 데이터 집합의 나머지 80%는 교차 유효성 검사를 통해 모델을 교육하는 데 사용됩니다.
교차 유효성 검사를 준비하려면 정렬된 교육 데이터를 여러 개의 접기로 분할해야 합니다. 선택한 날짜 인덱스를 기준으로 첫 번째 접기에는 가장 오래된 레코드가 포함되고 마지막 접기에는 최근 레코드가 포함됩니다.
그런 다음 모델은 5번 반복하여 교육됩니다. 각 반복마다 교육 데이터의 양이 점진적으로 늘어납니다. 반복될 때마다 포함된 교육 데이터의 최신성도 높아집니다. 교육 메트릭은 교차 유효성 검사 중에 생성되며 계산된 값의 평균입니다.
교육 후 모델은 홀드아웃 데이터에 적용됩니다. 홀드아웃 데이터는 교육 중에 모델에 반영되지 않으므로 모델 교육 성능의 유효성을 검사하기에 이상적입니다. 홀드아웃 메트릭은 이 최종 모델 평가 중에 생성됩니다.

시계열 모델용 홀드아웃 및 교차 유효성 검사

시계열 모델은 시간별 예측을 수행하는 특정 유형의 모델입니다. 다른 모델과 비교할 때 이러한 모델의 훈련 프로세스에는 몇 가지 유사점과 차이점이 있습니다.

다른 모델과 마찬가지로 학습 데이터세트는 여전히 80%(학습)와 20%(테스트)로 분할됩니다. 시간 기반 분할 방법이 사용됩니다.

테스트 세트는 모델 성능을 평가하는 데 사용됩니다. 이 세트는 실험의 분석 탭에 표시되며, 여기에서 모델이 학습 기간을 넘어 얼마나 잘 일반화되는지 탐색할 수 있습니다.
5겹 교차 검증은 사용되지 않습니다. 데이터가 신경망을 통해 실행될 때, 훈련 프로세스 자체 중에 일부 유효성 검사가 수행됩니다.

Qlik 프로젝트을(를) 사용한 시계열 예측에 대한 자세한 내용은 시계열 실험 작업를 참조하십시오.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.