시간 경과에 따른 모델 성능 평가
여러 개의 기계 학습 모델을 학습시키고 가장 적합한 모델을 배포한 후에는 프로덕션 데이터에 대한 예측을 만들기 시작합니다. 모델이 여전히 신뢰할 수 있는 예측을 생성하는지, 그리고 모델이 교육된 데이터가 여전히 관련성이 있는지 확인하기 위해 모델의 성능을 지속적으로 평가해야 합니다.
모니터링하는 것이 중요한 요소
작업상의 필요성
예측적 사용은 시간이 지남에 따라 바뀔 가능성이 있습니다. 변경 내용은 사소할 수도 있고 중요할 수도 있습니다. 현재 구성에서도 모델이 여전히 가치를 제공하는지 평가해야 합니다. 모델을 처음으로 학습한 이후 기계 학습 질문이 크게 변경된 경우 질문과 데이터 집합을 정의하는 프로세스를 다시 시작하는 것이 좋습니다.
입력 데이터 및 예측 정확도
입력 데이터의 분포와 추세는 시간이 지남에 따라 변하는 것이 일반적입니다. 한때 교육 데이터를 정의하는 데 중요했던 요소가 더 이상 관련성이 없거나, 그 영향이 더욱 커질 수 있습니다. 예측된 결과에 영향을 미치는 새로운 변수가 있고, 이를 모델에 새로운 기능으로 도입해야 할 수도 있습니다. 마찬가지로, 특정 기능은 모델에 포함될 만큼 결과에 실질적으로 기여하지 않을 수도 있습니다.
초기 교육 데이터와 최신 사용할 수 있는 데이터 사이의 드리프트 양을 모니터링해야 합니다. 특정 기능에 대한 드리프트가 더 이상 허용할 수 없는 threshold에 도달하기 시작하면 새로운 데이터를 수집하고 모델을 다시 학습시키거나 기계 학습 문제에 대한 새로운 정의로 시작해야 합니다. 데이터 드리프트에 대한 추가 세부 정보는 데이터 드리프트를 참조하십시오.
또한, 모델이 처음과 같은 정확도로 예측하지 못한다면, 허용 가능한 성능으로 되돌리기 위해 무엇을 변경해야 하는지 다시 평가해야 합니다. 예를 들어, 데이터 컬렉션 프로세스 중에 발생하는 오류로 인해 모델 정확도가 영향을 받는 것을 알 수 있습니다.
모델 재교육
더 많은 기록 데이터가 제공되고 성과가 감소했는지 여부와 관계없이 가장 최신 정보를 반영하도록 모델을 다시 교육시키는 것이 불가피합니다.
데이터 드리프트 모니터링
AutoML에는 배포된 모델의 기능 드리프트를 감지하는 데 도움이 되는 기본 제공 기능이 있습니다. 자세한 내용은 배포된 모델에서 데이터 드리프트 모니터링을 참조하십시오.
다음 단계
사용 사례와 입력 데이터가 얼마나 크게 변경되었는지에 따라 다음 중 하나 이상을 고려하는 것이 좋습니다.
-
새로운 데이터를 사용하여 동일한 실험 내에서 모델을 다시 교육합니다. 기계 학습 문제가 크게 바뀌지 않았다면 이 옵션은 여러 가지 이점을 제공합니다. 특히, 동일한 실험 내에서 모든 실험 버전의 모델을 자세히 비교할 수 있습니다. 자세한 내용은 데이터 집합 변경 및 새로 고침을 참조하십시오.
-
초기에 정의한 기계 학습 문제가 더 이상 관련이 없다면 완전히 새로운 실험을 만드는 것이 합리적일 수 있습니다. 이는 주로 사용 사례에 따라 다릅니다.