Кардинальность
Кардинальность — это уникальность значений данных, содержащихся в столбце. Столбцы со слишком большим количеством уникальных значений или вообще без уникальных значений имеют небольшое отклонение. Модель машинного обучения не может выявить какие-либо закономерности в этих данных.
Высокая кардинальность указывает на большое количество уникальных значений. Чтобы предотвратить высокую кардинальность, можно объединить или сгруппировать похожие значения. Также можно создать новые столбцы с данными, например, преобразовав домашние адреса в расстояния до или от определенного местоположения.
Столбец только с одним уникальным значением (константой) не позволяет идентифицировать шаблоны.