지능형 모델 최적화
지능형 모델 최적화는 실험에서 교육한 모델을 자동으로 구체화합니다. 지능형 모델 최적화를 통해 기능 선택을 반복하고 고급 변환을 적용하는 프로세스가 자동으로 처리됩니다. 모든 관련 기능을 포함하는 잘 준비된 교육 데이터 집합을 사용하면 지능형 모델 최적화를 통해 단일 버전 내에서 즉시 배포 가능한 모델을 교육할 수 있습니다.
지능형 모델 최적화란 무엇입니까?
지능형 모델 최적화는 모델 구체화 프로세스의 여러 측면을 자동화합니다. 지능형 모델 최적화를 사용하면 기능 선택을 수동으로 구체화하거나 입력 데이터를 조정하지 않고도 고품질 모델을 빠르게 교육할 수 있습니다.
지능형 모델 최적화 사용
새로운 ML 실험에서는 지능형 모델 최적화가 기본적으로 켜져 있습니다. 실행하는 실험의 각 버전에 대해 이 기능을 켜거나 끌 수 있습니다.
지능형 최적화를 활성화한 상태에서 실험 버전을 실행한 후 모델 교육 요약에서 최적화 결과를 볼 수 있습니다. 이 요약은 모델 통찰력 아래의 모델 탭에 표시됩니다. 자세한 설명이 포함된 도구 설명을 보려면 밑줄이 그어진 용어 위에 커서를 올리십시오.
모델 교육 요약은 실험 버전에서 교육된 모델마다 다릅니다.
지능형 모델 최적화 작동 방식
지능형 모델 최적화를 통해:
수동 최적화보다 더 많은 모델이 교육됩니다. 기능 선택은 모델 수준에서 처리됩니다. 이는 수동 최적화와 달리 버전의 각 모델이 서로 다른 기능을 선택할 수 있음을 의미합니다.
모든 모델에 기본적으로 적용되는 자동 사전 처리 외에도, 교육 데이터는 여러 가지 고급 변환을 통해 처리됩니다. 이러한 변환을 통해 기계 학습 알고리즘에 맞춰 데이터가 최적의 형식인지 확인할 수 있습니다.
품질 보증을 위해 기본 모델(해당 버전에 대해 구성한 전체 기능 집합에 대해 교육된 모델)은 여전히 교육됩니다. 이는 지능형 최적화가 실제로 모델 점수를 향상시키는지 확인하는 데 도움이 됩니다.
대규모 교육 데이터 집합의 경우 모델은 다양한 샘플링 비율로 교육됩니다. 이는 교육 과정의 속도를 높이는 데 도움이 됩니다. 자세한 내용은 교육 데이터 샘플링을 참조하십시오.
교육 데이터 샘플링
대량의 데이터로 모델을 교육시키는 경우 AutoML은 샘플링을 사용하여 원본 데이터 집합의 다양한 하위 집합(샘플링 비율)에 대해 모델을 교육합니다. 샘플링은 교육 과정의 속도를 높이는 데 사용됩니다. 교육이 시작될 때 모델은 작은 샘플링 비율로 교육됩니다. 교육이 계속됨에 따라 모델은 점차적으로 더 많은 데이터 부분에 대해 교육됩니다. 결국 모델은 전체 데이터 집합(샘플링 비율 100%)에 대해 교육됩니다.
모델 교육 데이터를 분석하는 동안, 교육 데이터 집합의 100% 미만으로 교육된 모델은 일부 보기에서 숨겨집니다.
지능형 모델 최적화 중 적용되는 처리
모델 교육 요약은 지능형 모델 최적화를 통해 교육 데이터가 어떻게 처리되었는지 보여 줍니다. 다음 섹션에서는 로그에 표시되는 각 항목에 대해 자세히 설명합니다.
기능 선택
지능형 모델 최적화는 예측 성능을 저하시킬 수 있는 기능을 제거하여 모델을 구체화하는 데 도움이 됩니다. 지능형 모델 최적화 중에 다음과 같은 이유로 기능이 삭제될 수 있습니다.
대상 유출: 이 기능은 대상 유출의 영향을 가져오는 것으로 의심됩니다. 대상 유출의 영향을 가져오는 기능에는 예측하려는 대상 열에 대한 정보가 포함됩니다. 예를 들어, 기능은 대상에서 직접 파생되거나 예측 시 알려지지 않은 정보를 포함합니다. 대상 유출을 유발하는 기능은 모델 성능에 대한 잘못된 확신을 줄 수 있습니다. 실제 예측에서는 모델의 성능이 매우 저하됩니다.
낮은 permutation importance: 기능은 모델 예측에 큰 영향을 미치지 않습니다. 이러한 기능을 제거하면 통계적 노이즈가 줄어들어 모델 성능이 향상됩니다.
상관 관계가 높음: 기능은 실험에 포함된 하나 이상의 다른 기능과 높은 상관 관계가 있습니다. 상관 관계가 너무 높은 기능은 교육 모델에 사용하기에 적합하지 않습니다.
실험 내의 데이터 탭에서 각 모델에 대해 삭제된 기능에 대한 통찰력을 볼 수 있습니다. 통찰력은 지능형 모델 최적화 프로세스 외부에서 삭제된 기능도 참조하십시오. 각 통찰력에 대한 자세한 내용은 데이터 집합 통찰력 해석을 참조하십시오.
기능 변환
지능형 모델 최적화는 기능 수준에서 여러 가지 기술적 변환을 적용합니다. 이러한 변환은 학습 데이터를 처리하여 보다 효과적으로 사용하여 신뢰할 수 있는 기계 학습 모델을 만들 수 있도록 합니다. 필요에 따라 기능 변환이 자동으로 적용됩니다. 모델 교육 요약에서는 기능 변환의 적용 시기 및 영향 받는 기능에 대한 알림이 제공됩니다.
거듭제곱 변환
기능 데이터는 자연스럽게 정규 분포와 어느 정도 비대칭적이고 편차가 있는 분포를 포함하는 경우가 많습니다. 모델을 교육시키기 전에, 값 분포가 지나치게 왜곡되어 있는 경우, 데이터에 일부 처리를 적용하여 값 분포를 정규화하는 것이 도움이 될 수 있습니다. 이러한 처리 과정을 통해 편향을 줄이고 이상값을 식별할 수 있습니다.
지능형 모델 최적화를 통해 특정 왜곡 threshold를 초과하는 숫자 기능은 거듭제곱 변환을 사용하여 보다 정규적인(또는 정규와 유사한) 분포로 변환됩니다. 구체적으로는 Yeo-Johnson 거듭제곱 변환이 사용됩니다.
숫자 기능의 분류
특정 숫자 기능에는 기계 학습 알고리즘으로 쉽게 처리할 수 없는 패턴과 분포가 포함될 수 있습니다. 지능형 모델 최적화를 통해 값 범위에 따라 특정 숫자 기능의 데이터를 여러 개의 Bin으로 구성하여 이 문제를 부분적으로 해결할 수 있습니다. 분류는 기능을 범주형 기능으로 변환하기 위해 수행됩니다.
분류가 완료된 후, 새 범주형 기능은 one-hot encoded되어 교육에 사용됩니다. one-hot encoding에 대한 자세한 내용은 범주 인코딩을 참조하십시오.
이상 감지 및 처리
이상은 합리적으로 예상할 수 있는 범위를 벗어나 나타나는 데이터 값입니다. 교육 데이터에 이상값이 있는 것은 드문 일이 아닙니다. 일부 이상은 실제 가능성을 반영하는 방법으로 바람직할 수도 있습니다. 다른 경우에는 이상이 신뢰할 수 있는 모델을 교육하는 기능을 방해할 수 있습니다.
AutoML은 지능형 모델 최적화를 통해 잠재적인 이상을 식별합니다. 이상값이 나타나는 행은 알고리즘 기반 가중치 시스템을 통해 처리됩니다. 값이 이상으로 강력히 의심되는 경우, 가중치 시스템은 모델에 대한 교육 데이터의 해당 행의 영향을 줄입니다.
모델이 교육된 후에는 원래 교육 데이터 집합에서 비정상 데이터로 처리된 행의 백분율에 대한 알림이 전송됩니다.
자세한 내용은 이상 감지 및 처리을 참조하십시오.
지능형 최적화 끄기
지능형 최적화를 끄면 교육을 수동으로 최적화하게 됩니다. 교육 프로세스에 대한 더 많은 제어가 필요한 경우 수동 최적화가 도움이 될 수 있습니다. 특히, 지능형 모델 최적화가 포함된 버전을 실행한 다음 소규모 수동 조정이 필요한 경우 설정을 해제할 수 있습니다.
다음과 같이 하십시오.
실험에서 구성 보기를 클릭합니다.
실험 구성 패널이 열립니다.
이미 하나 이상의 실험 버전을 실행한 경우 새 버전을 클릭합니다.
패널에서 모델 최적화를 확장합니다.
지능형에서 수동으로 전환합니다.
고려사항
지능형 모델 최적화 작업을 수행할 때 다음 사항을 고려합니다.
지능형 모델 최적화를 사용한다고 해서 교육이 고품질 모델을 생성한다는 보장은 없습니다. 데이터 집합 준비 및 실험 구성 단계도 신뢰할 수 있는 모델을 생성하는 데 필수적입니다. 잘 준비된 데이터 집합이 없거나 구성에 주요 기능이 누락된 경우 모델이 프로덕션 사용 사례에서 제대로 작동할 것이라고 보장할 수 없습니다. 이러한 단계에 대한 자세한 내용은 다음을 참조하십시오.
버전에 대해 지능형 모델 최적화가 켜져 있으면 이 버전의 각 모델에는 별도의 포함된 기능 집합이 있습니다. 반면, 수동 최적화로 교육된 버전의 모든 모델에는 동일한 기능 집합이 포함됩니다.
지능형 모델 최적화는 버전 구성에 포함된 기능과 알고리즘만 사용합니다.
하이퍼 매개 변수 최적화
지능형 모델 최적화가 켜져 있으면 하이퍼 매개 변수 최적화를 사용할 수 없습니다. 하이퍼 매개 변수 최적화를 활성화하려면 모델 최적화를 수동으로 설정해야 합니다.
자세한 내용은 하이퍼 매개 변수 최적화을 참조하십시오.
예
지능형 모델 최적화의 이점을 보여 주는 예는 예 – 자동화된 기계 학습을 사용한 학습 모델을 참조하십시오.