Cardinalidade
Cardinalidade é a exclusividade dos valores de dados em uma coluna. Colunas com muitos valores exclusivos ou nenhum valor exclusivo têm pouca variação. Um modelo de aprendizado de máquina não pode identificar nenhum tipo de padrão nesses dados.
Uma cardinalidade alta significa um número alto de valores exclusivos. Para evitar alta cardinalidade, você pode classificar ou agrupar valores semelhantes. Você também pode criar novas colunas de recursos, por exemplo, endereços residenciais podem ser transformados em distâncias de ou para um local específico.
Uma coluna com apenas um valor único (constante) não é útil na identificação de padrões.