데이터 드리프트

시간이 지남에 따라 하나 이상의 기능에서 데이터의 분포, 크기 및 기타 속성이 변경되기 때문에 모델의 정확도가 떨어질 수 있습니다. 원래 모델은 특정 패턴과 분포를 포함하는 기능으로 훈련되었기 때문에 이러한 분포의 향후 변경 사항은 예측의 정밀도와 품질에 영향을 미칩니다.

데이터 드리프트는 정량화할 수 있으며 여러 가지 방법으로 계산할 수 있습니다. Qlik 프로젝트에서 데이터 드리프트는 모집단 안정성 지수 공식을 사용하여 계산됩니다. 배포된 모델에서 데이터 드리프트 모니터링를 참조하십시오.

모범 사례는 예측을 생성하는 가장 최신의 적용 데이터 세트와 원래의 훈련 데이터 세트를 비교하여 모델의 데이터 드리프트를 모니터링하는 것입니다. 데이터 드리프트가 특정 임계값에 도달하면 모델을 다시 훈련하거나 원래의 기계 학습 문제가 크게 변경된 경우 새 모델을 구성합니다.

시간 경과에 따른 모델 성능 평가에 대한 자세한 내용은 시간 경과에 따른 모델 성능 평가를 참조하십시오.

예

어떤 회사에 주로 45세 이상의 소비자에게 인기가 있는 것으로 확인된 제품 세트가 있다고 가정해 보겠습니다. Age 기능의 값 분포는 다음과 같을 수 있습니다.

회사가 신제품을 출시하기 전 연령별 제품 구매 분포를 보여주는 막대 차트입니다. 이 경우 연령 빈도 분포는 주로 45세 이상의 성인에게 어필하는 매출을 보여줍니다. — 45세 이상의 소비자에게 더 어필하는 회사 매출을 보여주는 막대 차트입니다.

최근 이 회사는 젊은 소비자에게도 어필할 수 있도록 마케팅된 신제품을 출시했습니다. 제품이 예상대로 판매되면 Age 기능에 대해 상당한 기능 드리프트가 나타납니다.

회사가 신제품을 출시한 후 연령별 제품 구매 분포를 보여주는 막대 차트입니다. 이 경우 연령 빈도 분포는 주로 45세 이상의 성인에게 어필하는 매출에서 모든 연령대에서 더 고르게 분포된 인기로 이동했습니다. — 회사 매출이 더 고르게 분포되어 모든 연령대의 소비자에게 더 동등하게 어필하는 회사 매출을 보여주는 막대 차트입니다.

Qlik 프로젝트의 데이터 드리프트 모니터링

Qlik 프로젝트에는 배포된 모델 내에서 기능별로 데이터 드리프트를 감지하는 데 도움이 되는 기본 제공 도구가 있습니다. 자세한 내용은 배포된 모델에서 데이터 드리프트 모니터링를 참조하십시오.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.