Cardinalité
La cardinalité est le caractère unique des valeurs des données d'une colonne. Les colonnes contenant un trop grand nombre de valeurs uniques ou ne contenant aucune valeur unique offrent peu de variance. Un modèle d'apprentissage machine ne parvient à identifier aucune sorte de pattern dans ces données.
Une forte cardinalité indique un grand nombre de valeurs uniques. Pour éviter une forte cardinalité, vous pouvez compartimenter, ou regrouper, les valeurs similaires. Vous pouvez également créer de nouvelles colonnes de caractéristiques ; par exemple, des adresses résidentielles peuvent être transformées en distances depuis ou vers un point géographique spécifique.
Une colonne avec une seule valeur unique (constante) n'est pas utile pour identifier les tendances.