Cardinalità
La cardinalità rappresenta l'unicità dei valori dei dati in una colonna. Le colonne con un numero eccessivo di valori unici o senza valori unici hanno una varianza ridotta. Un modello di machine learning non può identificare alcun tipo di schema in questi dati.
Una cardinalità elevata corrisponde a un numero elevato di valori unici. Per evitare una cardinalità elevata, è possibile raggruppare valori simili. È inoltre possibile creare nuove colonne di caratteristiche, ad esempio gli indirizzi di casa possono essere trasformati in distanze da o verso una determinata posizione.
Una colonna con un solo valore univoco (costante) non è utile per l'identificazione di modelli.