지능형 모델 최적화

지능형 모델 최적화는 실험에서 학습시키는 모델의 자동 조정을 제공합니다. 지능형 모델 최적화를 사용하면 기능 선택을 반복하고 고급 변환을 적용하는 프로세스가 자동으로 처리됩니다. 모든 관련 기능이 포함된 잘 준비된 학습 데이터 세트를 사용하면 지능형 모델 최적화를 통해 단일 버전 내에서 즉시 배포 가능한 모델을 학습시킬 수 있습니다.

지능형 모델 최적화란 무엇입니까?

지능형 모델 최적화는 모델 조정 프로세스의 많은 측면을 자동화합니다. 지능형 모델 최적화를 사용하면 기능 선택을 수동으로 조정하거나 입력 데이터를 조정하지 않고도 고품질 모델을 빠르게 학습시킬 수.

지능형 모델 최적화 사용

지능형 모델 최적화는 다음 유형의 새 ML 실험에서 기본적으로 켜져 있습니다.

이진 분류
다중 클래스 분류
회귀

지능형 모델 최적화는 시계열 실험에 적용할 수 없습니다.

실행하는 실험의 각 버전에 대해 지능형 모델 최적화를 켜거나 끌 수 있습니다.

지능형 최적화가 켜진 상태에서 실험 버전을 실행한 후 최적화 결과를 모델 학습 요약에서 볼 수 있습니다. 이 요약은 모델 탭의 모델 인사이트 아래에 표시됩니다. 밑줄이 그어진 용어 위에 마우스 커서를 올려 자세한 설명이 포함된 도구 설명을 볼 수 있습니다.

모델 학습 요약은 실험 버전에서 학습된 각 모델마다 다릅니다.

지능형 모델 최적화 작동 방식

지능형 모델 최적화를 사용하면 다음과 같은 이점이 있습니다.

수동 최적화보다 더 많은 모델이 학습됩니다. 기능 선택은 모델 수준에서 처리됩니다. 즉, 수동 최적화와 달리 버전의 각 모델은 서로 다른 기능 선택을 가질 수 있습니다.
기본적으로 모든 모델에 적용되는 자동 전처리 외에도 학습 데이터는 여러 고급 변환으로 처리됩니다. 이러한 변환은 데이터가 머신 러닝 알고리즘에 최적의 형식인지 확인하는 데 도움이 됩니다.
품질 보증을 위해 기준 모델(버전에 대해 구성한 전체 기능 세트에서 학습된 모델)이 계속 학습됩니다. 이는 지능형 최적화가 실제로 모델 점수를 향상시키고 있는지 확인하는 데 도움이 됩니다.
더 큰 학습 데이터 세트의 경우 모델은 다양한 샘플링 비율로 학습됩니다. 이는 학습 프로세스의 속도를 높이는 데 도움이 됩니다. 자세한 내용은 학습 데이터 샘플링을(를) 참조하십시오.

학습 데이터 샘플링

많은 양의 데이터로 모델을 학습시킬 때 Qlik 프로젝트 는 샘플링을 사용하여 원래 데이터 세트의 다양한 하위 세트(샘플링 비율)에서 모델을 학습시킵니다. 샘플링은 학습 프로세스의 속도를 높이는 데 사용됩니다. 학습 시작 시 모델은 작은 샘플링 비율로 학습됩니다. 학습이 계속됨에 따라 모델은 점차 데이터의 더 큰 부분에서 학습됩니다. 결국 모델은 전체 데이터 세트(샘플링 비율 100%)에서 학습됩니다.

모델 학습 데이터 분석 중에는 학습 데이터 세트의 100% 미만으로 학습된 모델이 일부 보기에서 숨겨집니다.

지능형 모델 최적화 중 적용되는 처리

모델 학습 요약은 지능형 모델 최적화에 의해 학습 데이터가 어떻게 처리되었는지 보여 줍니다. 다음 섹션에는 로그에 표시되는 각 항목에 대한 자세한 정보가 포함되어 있습니다.

적용되는 처리는 모델에 따라 다를 수 있습니다.

지능형 최적화로 학습된 모델의 학습 요약 차트입니다. 대상 누출 및 높은 상관 관계 등의 이유로 학습 데이터의 기능이 모델에서 자동으로 제외되었습니다. — 모델 탭에 표시되는 모델의 모델 학습 요약 차트

기능 선택

지능형 모델 최적화는 예측 성능을 저하시킬 수 있는 기능을 삭제하여 모델을 조정하는 데 도움이 됩니다. 지능형 모델 최적화 중에 다음과 같은 이유로 기능이 삭제될 수 있습니다.

Target leakage: 기능이 대상 누출의 영향을 받는 것으로 의심됩니다. 대상 누출의 영향을 받는 기능에는 예측하려는 대상 열에 대한 정보가 포함되어 있습니다. 예를 들어 기능이 대상에서 직접 파생되었거나 예측 시점에는 알 수 없는 정보가 포함되어 있습니다. 대상 누출을 유발하는 기능은 모델 성능에 대해 잘못된 확신을 줄 수 있습니다. 실제 예측에서 이러한 기능은 모델 성능을 매우 저하시킵니다.
Low permutation importance: 기능이 모델 예측에 거의 또는 전혀 영향을 미치지 않습니다. 이러한 기능을 제거하면 통계적 노이즈가 줄어들어 모델 성능이 향상됩니다.
Highly correlated: 기능이 실험의 하나 이상의 다른 기능과 높은 상관 관계를 가집니다. 상관 관계가 너무 높은 기능은 모델 학습에 사용하기에 적합하지 않습니다.

실험 내의 데이터 탭에서 각 모델에 대해 삭제된 기능에 대한 인사이트를 볼 수 있습니다. 인사이트는 지능형 모델 최적화 프로세스 외부에서 삭제된 기능도 나타냅니다. 각 인사이트에 대한 자세한 내용은 데이터 세트 인사이트 해석을(를) 참조하십시오.

기능 변환

지능형 모델 최적화는 기능 수준에서 여러 기술적 변환을 적용합니다. 이러한 변환은 신뢰할 수 있는 머신 러닝 모델을 만드는 데 더 효과적으로 사용할 수 있도록 학습 데이터를 처리합니다. 기능 변환은 필요에 따라 자동으로 적용됩니다. 모델 학습 요약에서 기능 변환이 적용되는 시기와 영향을 받는 기능에 대한 알림을 받습니다.

거듭제곱 변환 (Power transform)

기능 데이터는 종종 자연스럽게 어느 정도의 비대칭성과 정규 분포로부터의 편차를 가진 분포를 포함합니다. 모델을 학습시키기 전에 값 분포가 너무 왜곡되어 보이는 경우 데이터를 정규화하기 위해 일부 처리를 적용하는 것이 도움이 될 수 있습니다. 이 처리는 편향을 줄이고 이상값을 식별하는 데 도움이 됩니다.

지능형 모델 최적화를 사용하면 특정 왜도 임계값을 초과하는 수치 기능이 거듭제곱 변환을 사용하여 더 정규(또는 정규에 가까운) 분포를 갖도록 변환됩니다. 구체적으로 Yeo-Johnson 거듭제곱 변환이 사용됩니다.

수치 기능 분류

특정 수치 기능에는 머신 러닝 알고리즘으로 쉽게 처리할 수 없는 패턴과 분포가 포함될 수 있습니다. 지능형 모델 최적화에서는 특정 수치 기능의 데이터를 값 범위에 따라 서로 다른 빈으로 구성하여 이 문제를 부분적으로 해결합니다. 기능이 범주형 기능으로 변환될 수 있도록 분류가 수행됩니다.

분류가 완료되면 새 범주형 기능이 one-hot encoded되어 학습에 사용됩니다. one-hot encoding에 대한 자세한 내용은 범주 인코딩을(를) 참조하십시오.

행 수준 가중치 부여 및 샘플링

이상값 감지 및 처리

이상값은 합리적으로 예상되는 범위를 벗어나는 데이터 값입니다. 학습 데이터에 일부 이상값이 있는 것은 드문 일이 아닙니다. 일부 이상값은 실제 가능성을 반영하는 방법으로 필요할 수도 있습니다. 다른 경우에는 이상값이 신뢰할 수 있는 모델을 학습시키는 능력을 방해할 수 있습니다.

지능형 모델 최적화를 통해 Qlik 프로젝트 는 잠재적인 이상값을 식별합니다. 그런 다음 이상값이 나타나는 행은 알고리즘 기반 가중치 시스템으로 처리됩니다. 값이 이상값으로 강력히 의심되는 경우 가중치 시스템은 학습 데이터의 해당 행이 모델에 미치는 영향을 줄입니다.

모델이 학습된 후 원래 학습 데이터 세트에서 이상 데이터로 처리된 행의 백분율을 알림으로 받습니다.

자세한 내용은 이상 탐지 및 처리을(를) 참조하십시오.

클래스 균형 조정

학습 데이터 세트에서 특정 값(클래스)이 다른 값보다 더 많이 발생할 수 있습니다. 이 현상을 클래스 불균형이라고 합니다. 데이터에 클래스 불균형이 있는 경우 결과 모델은 소수 클래스보다 다수 클래스에 대해 더 많이 학습하여 예측 정확도에 영향을 미칩니다.

지능형 모델 최적화를 통해 Qlik 프로젝트는 이진 분류 모델에 대해 자동 클래스 균형 조정을 수행합니다. 클래스 불균형은 대상 열에 있는 두 클래스의 값 분포를 비교하여 감지됩니다. 구체적으로 두 클래스 간의 비율이 다음과 같을 때 수행됩니다.

행의 95%(이상)에 하나의 클래스가 포함됨
행의 5%(이하)에 다른 클래스가 포함됨

클래스 균형 조정 중에 클래스 분포를 개선하기 위해 학습 데이터가 오버샘플링됩니다. 이 프로세스는 반복적이며, 모델 성능을 위한 최적의 균형을 찾기 위해 여러 가지 다양한 출력 비율을 테스트합니다.

오버샘플링 후 오버샘플링된 데이터 세트는 실험 버전에서 모델을 학습시키는 데 사용됩니다.

클래스 균형 조정에 대한 일반적인 내용은 클래스 균형 조정을(를) 참조하십시오.

지능형 최적화 끄기

지능형 최적화를 끄면 학습을 수동으로 최적화하게 됩니다. 학습 프로세스를 더 세밀하게 제어해야 하는 경우 수동 최적화가 도움이 될 수 있습니다. 특히 지능형 모델 최적화로 버전을 실행한 다음 소수의 수동 조정을 수행해야 하는 경우 설정을 끌 수 있습니다.

수동 최적화는 시계열 실험에서 사용할 수 없습니다.

다음과 같이 하십시오.

실험에서 구성 보기를 클릭합니다.

실험 구성 패널이 열립니다.
이미 실험 버전을 하나 이상 실행한 경우 새 버전 만들기를 클릭합니다.
패널에서 모델 최적화를 확장합니다.
지능형에서 수동으로 전환합니다.

고려 사항

지능형 모델 최적화로 작업할 때는 다음 사항을 고려하십시오.

지능형 모델 최적화를 사용한다고 해서 학습을 통해 고품질 모델이 생성된다는 보장은 없습니다. 데이터 세트 준비 및 실험 구성 단계도 필수적입니다. 잘 준비된 데이터 세트가 없거나 구성에 주요 기능이 누락된 경우 프로덕션 사용 사례에서 모델이 제대로 작동한다고 보장할 수 없습니다. 이러한 단계에 대한 자세한 내용은 다음을 참조하십시오.
- 학습을 위한 데이터 세트 준비
- 실험 구성
버전에 대해 지능형 모델 최적화가 켜져 있으면 이 버전의 각 모델에는 포함된 기능의 별도 세트가 있습니다. 반면, 수동 최적화로 학습된 버전의 모든 모델에는 포함된 기능의 동일한 세트가 있습니다.
지능형 모델 최적화는 버전에 대한 구성에 포함한 기능 및 알고리즘만 사용합니다.

하이퍼파라미터 최적화

지능형 모델 최적화가 켜져 있으면 하이퍼파라미터 최적화를 사용할 수 없습니다. 하이퍼파라미터 최적화를 활성화하려면 모델 최적화를 수동으로 설정해야 합니다.

자세한 내용은 하이퍼파라미터 최적화을(를) 참조하십시오.

예

지능형 모델 최적화의 이점을 보여 주는 예는 자습서 – 예측 데이터 생성 및 시각화를 참조하십시오.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.