Encodage catégorique
La plupart des algorithmes d'apprentissage machine nécessitent que les variables soient numériques. Étant donné qu'une valeur catégorique n'a pas de relation clairement mesurable avec les autres valeurs de cette même colonne, elle doit d'abord être convertie en représentation numérique pour pouvoir être mesurée mathématiquement. AutoML utilise l'encodage catégorique pour transformer les valeurs catégoriques des colonnes de caractéristiques en valeurs numériques compréhensibles par les algorithmes d'apprentissage machine.
AutoML utilise deux méthodes d'encodage : impact encoding et encodage one-hot (ou encodage 1). La méthode utilisée sur une caractéristique donnée dépend de la taille de l'ensemble de données et du nombre de valeurs catégoriques uniques.
-
Pour les ensembles de données contenant un maximum de 100 colonnes :
-
Les caractéristiques catégoriques contenant un maximum de 13 valeurs uniques sont encodées via la méthode d'encodage one-hot (ou encodage 1).
-
Les caractéristiques catégoriques contenant plus de 13 valeurs uniques sont encodées via la méthode impact encoding.
-
-
Pour les ensembles de données contenant plus de 100 colonnes, toutes les colonnes catégoriques sont encodées via la méthode impact encoding.
Vous pouvez voir les caractéristiques de votre ensemble de données traitées via l'encodage catégorique en consultant la vue Schéma lors de la configuration de votre expérimentation ML. Pour plus d'informations, voir Configuration d'expérimentations.
Fonctionnement de l'encodage catégorique
Une technique courante pour représenter mathématiquement une catégorie est la technique de l'encodage one-hot (ou encodage 1). L'encodage one-hot pivote la colonne catégorique en un nombre n de colonnes, où n est égal au nombre de valeurs uniques de la colonne. Le nombre 1 est assigné à la colonne appropriée pour chaque ligne et le nombre 0 aux autres colonnes générées pour la catégorie. L'encodage catégorique permet d'évaluer chaque variable unique indépendamment des autres, contrairement à une valeur numérique, qui est évaluée par rapport aux autres valeurs de la colonne.
L'exemple du tableau montre la manière dont la colonne catégorique MarketingSource a été traitée via l'encodage one-hot. Il en résulte quatre nouvelles colonnes, une pour chaque source marketing unique. Sur la première ligne, la source marketing de Person_1 est Facebook. Cela est représenté par la valeur 1 dans la nouvelle colonne Facebook et la valeur 0 dans les autres colonnes.