이상 탐지 및 처리
지능형 모델 최적화를 사용할 때 이상 탐지 및 처리가 제공됩니다. 이러한 기능을 통해 Qlik 프로젝트는 특정 처리를 통해 학습 데이터의 이상값을 자동으로 처리할 수 있습니다. 학습 중에 학습 데이터의 이상값 데이터는 완전히 제거되지 않고 알고리즘 기반 가중치 시스템을 사용하여 처리됩니다.
작업할 수 있는 거의 모든 종류의 데이터에서 이상값 또는 이상을 관찰하는 것은 흔한 일입니다. 이상은 일반적으로 예상할 수 있는 범위를 벗어나 발생하는 데이터 값입니다. 머신 러닝 모델을 학습할 때 일정 비율의 이상은 허용될 수 있으며 실제 편차를 반영하는 것으로 바람직할 수도 있습니다. 그러나 극단적인 경우 이상 및 이상값은 모델에 편향을 도입하여 신뢰성과 유용성을 떨어뜨립니다.
예
모든 이상을 동일하게 취급해서는 안 되며, 항상 데이터에서 제거해야 할 대상으로 간주해서도 안 됩니다. 예를 들어, 데이터 이상이 자연적으로 발생할 수 있지만 데이터를 수집할 때 관찰할 수 있는 드문 발생인 경우, 이를 학습하는 모델에 사용하고자 하는 것이 타당할 수 있습니다. 이에 대한 좋은 예가 금융 거래의 사기 사례입니다. 수백만 건의 거래 중 소수만이 사기와 관련이 있을 수 있습니다. 모델로 분석하고 해결하려는 문제에 따라 일상적인 거래에서 사기가 발생할 확률은 예측을 생성할 때 고려하고 싶은 사항일 수 있습니다.
제거하고 싶은 이상의 예로는 데이터를 수집할 때 발생하는 의도하지 않은 오류가 있습니다. 예를 들어, 날씨 패턴을 예측하는 데 사용할 모델을 구축한다고 가정해 보겠습니다. 모델은 날씨 지표를 모니터링하는 센서의 데이터로 학습되고 있으며, 이와 무관한 정전으로 인해 센서에서 잘못된 데이터가 수집됩니다. 이 잘못된 데이터는 모델 학습을 완료하기 전에 제거하고 싶은 이상 데이터로 간주될 수 있습니다.
Qlik 프로젝트는 이상을 어떻게 처리합니까?
이상 탐지 및 처리는 지능형 모델 최적화로 모델을 학습할 때 수행되며, 이는 새 실험에서 기본적으로 켜져 있습니다.
이상 처리는 일반적으로 탐지와 실제 모델 학습이라는 두 가지 별도의 프로세스에서 발생하는 것으로 간주할 수 있습니다.
이상 탐지
학습 버전을 실행할 때 Qlik 프로젝트는 모델 학습이 시작되기 전에 여러 단계를 완료합니다. 여기에는 데이터 분류, null 대체 및 기타 여러 프로세스가 포함됩니다. 이상 탐지는 이 단계에서 완료되며 지능형 모델 최적화가 켜져 있을 때만 완료됩니다.
기술적인 측면에서 Qlik 프로젝트는 의사 결정 트리 기반 알고리즘인 격리 포리스트(isolation forest) 알고리즘을 사용하여 학습 데이터의 이상 및 이상값을 탐지합니다. 지능형 모델 최적화의 데이터 처리 단계에서 데이터 집합의 각 데이터 포인트(일반적으로 레코드라고 함)에는 이상 점수가 할당되고 이상이라는 확실성 정도에 따라 가중치가 부여됩니다.
모델 학습에서의 이상 처리
데이터가 필요에 따라 처리되고 변환된 후 Qlik 프로젝트는 모델 학습을 시작합니다. 이 프로세스 동안 이전에 생성된 가중치 이상 점수를 사용하여 각 행이 모델에 미치는 영향을 조정합니다. 예를 들어, 이상이 포함될 가능성이 높은 것으로 간주되는 행은 모델 학습에 미치는 영향이 낮게 할당됩니다.
이 가중치 점수 시스템을 통해 Qlik 프로젝트는 데이터를 버리지 않고 대신 이상값 데이터가 모델에 미치는 영향을 줄일 수 있습니다.
고려 사항
Qlik 프로젝트에서 사용할 수 있는 이상 탐지 기능에도 불구하고, 이것이 고품질 모델을 학습하는 데 아무 데이터나 사용할 수 있다는 의미는 아닙니다. 데이터에 비정상적으로 많은 비율의 잘못되거나 손상된 정보가 포함되어 있는 경우 이상 탐지로 이러한 모든 문제를 해결할 수는 없습니다.
이러한 시나리오에서는 데이터 수집 프로세스로 돌아가서 가장 고품질의 현실적인 데이터를 사용할 수 있는지 확인하는 것이 좋습니다. 이렇게 하면 머신 러닝 모델의 신뢰성과 성공을 최적화하는 데 도움이 됩니다.