범주 인코딩
대부분의 기계 학습 알고리즘에서는 변수가 숫자여야 합니다. 범주형 값은 동일한 열의 다른 값과 명확하게 측정 가능한 관계가 없기 때문에 먼저 수학으로 측정할 수 있도록 숫자 표현으로 변환해야 합니다. AutoML은 범주형 인코딩을 사용하여 기능 열의 범주형 값을 기계 학습 알고리즘이 이해할 수 있는 숫자 값으로 변환합니다.
AutoML은 impact encoding과 one-hot encoding이라는 두 가지 인코딩 방법을 사용합니다. 특정 기능에 사용되는 방법은 데이터 집합 크기와 고유 범주 값의 수에 따라 다릅니다.
-
열이 100개 이하인 데이터 집합의 경우:
-
고유 값이 13개 이하인 범주 기능은 one-hot encoded됩니다.
-
고유한 값이 13개 이상인 범주 기능은 impact encoded됩니다.
-
-
열이 100개 이상인 데이터 집합의 경우 모든 범주 열이 impact encoded됩니다.
ML 실험을 구성할 때 스키마 보기를 참조하여 범주형 인코딩을 사용하여 데이터 집합의 어떤 기능이 처리되고 있는지 확인할 수 있습니다. 자세한 내용은 실험 구성을 참조하십시오.
범주형 인코딩 작동 방법
범주에 수학적 표현을 제공하는 일반적인 기술은 one-hot encoding입니다. one-hot encoding은 범주형 열을 n개의 열로 피벗합니다. 여기서 n은 열의 고유한 값 수와 같습니다. 숫자 1이 각 행의 적절한 열에 할당되고 범주에 대해 생성된 다른 열에는 0이 할당됩니다. 범주형 인코딩을 사용하면 열의 다른 값에 대해 상대적인 측면에서 평가되는 숫자 값과 달리 각각의 고유한 변수를 다른 변수와 독립적으로 평가할 수 있습니다.
테이블의 예에서는 범주형 열 MarketingSource가 어떻게 one-hot encoded되었는지 보여 줍니다. 그 결과 각 고유한 마케팅 소스에 대해 하나씩 총 4개의 새로운 열이 생성됩니다. 첫 번째 행에는 Person_1의 마케팅 소스가 "Facebook"입니다. 이는 새 Facebook 열에서 1로 표시되고 다른 열에서는 0으로 표시됩니다.