데이터 드리프트
시간이 지남에 따라 하나 이상의 기능에 있는 데이터의 분포, 크기 및 기타 속성이 변경되어 모델의 정확도가 떨어질 수 있습니다. 원래 모델은 특정 패턴과 분포를 포함하는 기능으로 교육되었으므로 향후 이러한 분포가 변경되면 예측의 정밀도와 품질에 영향을 미칩니다.
데이터 드리프트는 정량화할 수 있으며 여러 가지 방법으로 계산할 수 있습니다. Qlik AutoML에서 데이터 드리프트는 인구 안정 지수 공식을 사용하여 계산됩니다. 배포된 모델에서 데이터 드리프트 모니터링을 참조하십시오.
예측을 생성하는 최신 적용 데이터 집합과 원본 교육 데이터 집합을 비교하여 데이터 드리프트를 모니터링하는 것이 가장 좋습니다. 데이터 드리프트가 특정 threshold에 도달하면 모델을 다시 학습시키거나 원래 기계 학습 문제가 크게 변경된 경우 새 모델을 구성합니다.
시간 경과에 따른 모델 성능 평가에 대한 자세한 내용은 시간 경과에 따른 모델 성능 평가을 참조하십시오.
예
어떤 회사가 주로 45세 이상 소비자에게 인기 있는 제품을 가지고 있다고 가정해 보겠습니다. 특징 연령에 대한 값 분포는 다음과 같습니다.
최근 이 회사는 젊은 소비자에게도 어필할 수 있는 신제품을 출시했습니다. 예상대로 제품이 판매되면 특징 연령에 대한 상당한 기능 변화가 나타납니다.
AutoML에서 데이터 드리프트 모니터링
AutoML에는 배포된 모델 내에서 기능별로 데이터 드리프트를 감지하는 데 도움이 되는 기본 제공 도구가 있습니다. 자세한 내용은 배포된 모델에서 데이터 드리프트 모니터링을 참조하십시오.