기능 크기 조정
기능은 대상 값을 예측하는 데 사용되는 데이터 집합의 열입니다. 기능의 데이터 값은 종종 다양한 범위를 갖습니다. 기능 크기 조정은 숫자 열의 값 범위를 표준화하여 값을 고르게 분포시킵니다. 이렇게 하면 관련이 없는 값을 연결할 수 있습니다.
주택 소유자가 모기지 불이행 여부를 예측하려고 한다고 가정해 보겠습니다. 이 경우 금리와 주택 가치는 매우 다른 범위와 규모를 갖게 됩니다. 이러한 각 값을 자체에 대해 표준화하면 동일한 평면을 따라 수학적으로 나타낼 수 있습니다. 이를 통해 모델 교육의 정확도와 속도를 모두 높일 수 있습니다.
기능 확장은 어떻게 작동합니까?
기능 크기 조정에 대한 일반적인 방법은 각 열의 평균 및 표준 편차를 계산하는 것입니다. 그런 다음 각 행에 대해 평균에서 떨어진 표준편차 수를 계산합니다.
이 개념과 사례를 설명하기 위해 InitialOrderValue 및 DaysToConvert 열이 있는 테이블이 있습니다.
열에 대한 평균값과 표준 편차가 계산됩니다. 이 값을 사용하여 원본 값의 크기를 조정할 수 있습니다. 기능 스케일링된 값은 원래 값과 평균 간의 차이를 표준 편차로 나눈 값입니다.
테이블의 첫 번째 레코드인 Person_1의 경우 초기 주문 값은 $45.37입니다. 초기 주문 값의 평균은 $32.81이고 표준 편차는 $13.58입니다. 이는 기능에 따라 크기가 조정된 값을 제공합니다.($45.37 - $32.81)/$13.58 = 0.925
단위($)는 나누기에 의해 취소됩니다. 이는 0.925가 더 이상 달러로 측정되지 않고 평균과의 상대 표준 편차로 측정됨을 의미합니다. 이를 두 열에 적용하면 이제 동일한 설명 평면에 있습니다. 다음 표는 기능에 따라 크기가 조정된 값을 보여 줍니다.
원본 값과 기능에 따라 크기가 조정된 값의 차이는 다음 상자 그림으로 시각화됩니다.