Кардинальность
Кардинальность — это уникальность значений данных в столбце. Столбцы со слишком большим количеством уникальных значений или без уникальных значений имеют небольшую дисперсию. Модель машинного обучения не может выявить какую-либо закономерность в таких данных.
Высокая кардинальность означает большое количество уникальных значений. Чтобы предотвратить высокую кардинальность, можно объединить или сгруппировать похожие значения. Также можно создать новые столбцы характеристик, например, домашние адреса можно преобразовать в расстояния до определенного местоположения или от него.
Столбец только с одним уникальным значением (константа) не подходит для выявления закономерностей.