카디널리티
카디널리티는 열에 있는 데이터 값의 고유성입니다. 고유한 값이 너무 많거나 고유한 값이 없는 열은 분산이 거의 없습니다. 머신 러닝 모델은 해당 데이터에서 어떠한 종류의 패턴도 식별할 수 없습니다.
카디널리티가 높다는 것은 고유한 값의 수가 많다는 것을 의미합니다. 높은 카디널리티를 방지하기 위해 유사한 값을 비닝(bin)하거나 그룹화할 수 있습니다. 또한 새로운 기능 열을 생성할 수도 있습니다. 예를 들어, 집 주소를 특정 위치까지의 거리로 변환할 수 있습니다.
고유한 값이 하나만 있는 열(상수)은 패턴을 식별하는 데 유용하지 않습니다.
관련 학습 자료: