이상 감지 및 처리
지능형 모델 최적화를 사용하면 이상 감지 및 처리가 제공됩니다. 이러한 기능을 통해 Qlik AutoML은 특정 처리를 통해 자동으로 교육 데이터의 이상값을 처리할 수 있습니다. 교육 중에 교육 데이터의 이상값 데이터는 완전히 제거되지 않고 대신 알고리즘 기반 가중치 시스템을 사용하여 처리됩니다.
거의 모든 종류의 데이터에서 이상값 또는 이상을 관찰하는 것은 일반적입니다. 이상은 일반적으로 기대되는 범위를 벗어나 발생하는 데이터 값을 말합니다. 기계 학습 모델을 교육할 때 일정 비율의 이상은 허용될 수 있으며, 심지어 실제 편차를 반영하는 것으로 바람직할 수도 있습니다. 그러나 극단적인 경우에는 이상 및 이상값이 모델에 편향을 가져와 모델의 신뢰성과 유용성이 떨어집니다.
예
모든 이상을 동등하게 처리해야 하는 것은 아니며, 항상 데이터에서 제거해야 할 것으로 여겨서는 안 됩니다. 예를 들어, 데이터 이상이 자연스럽게 발생할 수 있지만 데이터를 수집하는 동안 드물게 관찰되는 경우, 이를 교육하는 모델에 사용하는 것이 합리적일 수 있습니다. 이에 대한 대표적인 예는 금융 트랜잭션 사기 발생 사례입니다. 수백만 건의 트랜잭션 중 사기와 관련된 것은 극소수에 불과할 것입니다. 모델을 통해 분석하고 해결하려는 문제에 따라, 예측을 생성할 때 일상 트랜잭션에서 사기가 발생할 가능성을 고려하는 것이 좋습니다.
제거하려는 이상의 예로 데이터를 수집할 때 발생하는 의도치 않은 실패를 들 수 있습니다. 예를 들어, 날씨 패턴을 예측하는 데 사용되는 모델을 구축한다고 가정해 보겠습니다. 사용 중인 모델은 날씨 메트릭을 모니터링하는 센서의 데이터를 사용하여 교육되고 있으며, 관련 없는 중단으로 인해 센서에서 잘못된 데이터가 수집되었습니다. 이러한 잘못된 데이터는 모델 교육을 완료하기 전에 제거하는 것이 좋은 이상 데이터로 간주될 수 있습니다.
Qlik AutoML은 이상을 어떻게 처리합니까?
새 실험에서는 기본적으로 켜지는 지능형 모델 최적화를 통해 모델을 교육하면 이상 감지 및 처리가 수행됩니다.
일반적으로 이상 처리는 감지와 실제 모델 교육이라는 두 가지 별개의 과정으로 나눌 수 있습니다.
이상 감지
교육 버전을 실행하면 AutoML은 모델 교육이 시작되기 전에 여러 단계를 완료합니다. 여기에는 데이터 분류, 귀무가치 추정 및 기타 여러 프로세스가 포함됩니다. 이 단계에서는 이상 감지가 완료되며, 지능형 모델 최적화가 켜져 있는 경우에만 가능합니다.
기술적인 측면에서 Qlik AutoML은 의사결정 트리 기반 알고리즘인 격리 포리스트 알고리즘을 사용하여 교육 데이터에서 이상 및 이상값을 감지합니다. 지능형 모델 최적화의 데이터 처리 단계에서 데이터 집합의 각 데이터 포인트(일반적으로 레코드라고 함)에 이상 점수가 할당되고 이상이라는 확실성의 정도에 따라 가중치가 부여됩니다.
모델 교육에서의 이상 처리
데이터가 필요에 따라 처리되고 변환되면 AutoML이 모델 교육을 시작합니다. 이 과정에서는 앞서 생성된 가중 이상 점수를 사용하여 각 행이 모델에 미치는 영향을 조정합니다. 예를 들어, 이상이 포함될 가능성이 높은 것으로 간주되는 행은 모델 교육에 낮은 영향을 미칩니다.
이 가중 채점 시스템을 통해 AutoML은 데이터 취소를 방지하고 대신 이상값 데이터가 모델에 미치는 영향을 줄일 수 있습니다.
고려사항
Qlik AutoML에서 사용할 수 있는 이상 감지 기능에도 불구하고, 모든 데이터를 사용하여 고품질 모델을 교육할 수 있다는 의미는 아닙니다. 데이터에 오류나 손상된 정보가 비정상적으로 많은 비율로 포함되어 있는 경우, 이상 감지만으로는 이러한 모든 문제를 해결할 수 없습니다.
이러한 시나리오에서는 가장 높은 품질이고 현실적인 데이터를 사용할 수 있는지 확인하기 위해 데이터 컬렉션 프로세스로 돌아가는 것이 좋습니다. 이는 기계 학습 모델의 신뢰성과 성공을 최적화하는 데 도움이 됩니다.