Mise à échelle des caractéristiques
Les caractéristiques sont les colonnes de votre ensemble de données qui sont utilisées pour prédire une valeur cible. Les plages des valeurs de données des caractéristiques varient souvent. La mise à échelle des caractéristiques standardise la plage de valeurs en colonnes numériques pour distribuer uniformément les valeurs. Cela permet de mettre en relation des valeurs qui, sinon, seraient impossibles à corréler.
Imaginons que nous tentions de prédire si un propriétaire ne va pas rembourser son prêt. Dans ce cas, le taux d'intérêt et la valeur de la propriété auront des plages et magnitudes très différentes. La standardisation de chacune de ces valeurs par rapport à elles-mêmes permet leur représentation mathématique sur le même plan. Cela peut augmenter l'exactitude et la vitesse de l'apprentissage du modèle.
Fonctionnement de la mise à échelle des caractéristiques
En matière de mise à échelle des caractéristiques, il est courant de calculer la moyenne et l'écart type de chaque colonne. Ensuite, pour chaque ligne, calculez le nombre d'écarts types éloignés de la moyenne.
Pour illustrer ce concept et cette pratique, nous avons un tableau avec les colonnes InitialOrderValue (Valeur de commande initiale) et DaysToConvert (Nombre de jours jusqu'à la conversion).
On calcule la valeur moyenne et l'écart type des colonnes. Nous pouvons utiliser ces valeurs pour mettre à échelle les valeurs d'origine des caractéristiques. La valeur des caractéristiques mises à échelle est la différence entre la valeur d'origine et la moyenne divisée par l'écart type.
Pour le premier enregistrement de la table, Person_1, la valeur de commande initiale est de 45,37 $. La moyenne de la valeur de commande initiale est de 32,81 $ et l'écart type de 13,58 $. Cela nous donne la valeur de la caractéristique mise à échelle : (45,37 $ - 32,81 $)/13,58 $ = 0,925
Notez que les unités ($) sont supprimées par la division. Cela signifie que la valeur 0,925 n'est plus mesurée en dollars, mais en écarts types relatifs par rapport à la moyenne. Une fois ce calcul appliqué aux deux colonnes, celles-ci se trouvent sur le même plan descriptif. Le tableau suivant montre les valeurs des caractéristiques mises à échelle.
La différence entre les valeurs d'origine et les valeurs des caractéristiques mises à échelle est visualisée par les boîtes à moustaches suivantes.