Accéder au contenu principal Passer au contenu complémentaire

Mise à échelle des caractéristiques

Les caractéristiques sont les colonnes de votre ensemble de données qui sont utilisées pour prédire une valeur cible. Les plages des valeurs de données des caractéristiques varient souvent. La mise à échelle des caractéristiques standardise la plage de valeurs en colonnes numériques pour distribuer uniformément les valeurs. Cela permet de mettre en relation des valeurs qui, sinon, seraient impossibles à corréler.

Imaginons que nous tentions de prédire si un propriétaire ne va pas rembourser son prêt. Dans ce cas, le taux d'intérêt et la valeur de la propriété auront des plages et magnitudes très différentes. La standardisation de chacune de ces valeurs par rapport à elles-mêmes permet leur représentation mathématique sur le même plan. Cela peut augmenter l'exactitude et la vitesse de l'apprentissage du modèle.

Fonctionnement de la mise à échelle des caractéristiques

En matière de mise à échelle des caractéristiques, il est courant de calculer la moyenne et l'écart type de chaque colonne. Ensuite, pour chaque ligne, calculez le nombre d'écarts types éloignés de la moyenne.

Pour illustrer ce concept et cette pratique, nous avons un tableau avec les colonnes InitialOrderValue (Valeur de commande initiale) et DaysToConvert (Nombre de jours jusqu'à la conversion).

Tableau avec des données d'origine. Les plages des deux colonnes sont très différentes.

Tableau contenant des échantillons de données.

On calcule la valeur moyenne et l'écart type des colonnes. Nous pouvons utiliser ces valeurs pour mettre à échelle les valeurs d'origine des caractéristiques. La valeur des caractéristiques mises à échelle est la différence entre la valeur d'origine et la moyenne divisée par l'écart type.

Valeur moyenne et écart type

Tableau avec la moyenne et l'écart type des colonnes Initial_order_value et Days_to_convert.

Pour le premier enregistrement de la table, Person_1, la valeur de commande initiale est de 45,37 $. La moyenne de la valeur de commande initiale est de 32,81 $ et l'écart type de 13,58 $. Cela nous donne la valeur de la caractéristique mise à échelle : (45,37 $ - 32,81 $)/13,58 $ = 0,925

Notez que les unités ($) sont supprimées par la division. Cela signifie que la valeur 0,925 n'est plus mesurée en dollars, mais en écarts types relatifs par rapport à la moyenne. Une fois ce calcul appliqué aux deux colonnes, celles-ci se trouvent sur le même plan descriptif. Le tableau suivant montre les valeurs des caractéristiques mises à échelle.

Tableau avec les données des caractéristiques mises à échelle

Tableau contenant des échantillons de données.

La différence entre les valeurs d'origine et les valeurs des caractéristiques mises à échelle est visualisée par les boîtes à moustaches suivantes.

Boîtes à moustaches des données d'origine

Boîtes à moustaches.

Boîtes à moustaches des données des caractéristiques mises à échelle

Boîtes à moustaches.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !