Cardinalità
La cardinalità rappresenta l'unicità dei valori dei dati in una colonna. Le colonne con troppi valori univoci o nessun valore univoco presentano una varianza ridotta. Un modello di machine learning non è in grado di identificare alcun tipo di schema in tali dati.
Una cardinalità elevata indica un numero elevato di valori univoci. Per evitare una cardinalità elevata, è possibile raggruppare valori simili. È inoltre possibile creare nuove colonne di funzionalità, ad esempio, gli indirizzi di casa potrebbero essere trasformati in distanze da o verso una posizione specifica.
Una colonna con un solo valore univoco (costante) non è utile per identificare gli schemi.