집합 크기
집합 크기는 열에 있는 데이터 값에 따라 고유합니다. 고유 값이 너무 많거나 고유 값이 없는 열은 변동이 거의 없습니다. 기계 학습 모델은 해당 데이터에서 어떤 종류의 패턴도 식별할 수 없습니다.
집합 크기가 높다는 것은 고유한 값이 많다는 것을 의미합니다. 높은 집합 크기를 방지하기 위해 유사한 값을 분류하거나 그룹화할 수 있습니다. 새 기능 열을 만들 수도 있습니다. 예를 들어, 집 주소를 특정 위치까지의 거리로 변환할 수 있습니다.
고유한 값(상수)이 하나만 있는 열은 패턴을 식별하는 데 유용하지 않습니다.
관련 학습 자료: