Accéder au contenu principal Passer au contenu complémentaire

Corrélation

La corrélation mesure la manière dont les caractéristiques de vos données sont associées les unes aux autres. Les caractéristiques évoluent-elles ensemble, à l'opposé les unes des autres, ou n'ont-elles aucun lien les unes avec les autres ?

La corrélation varie de -1.0 à 1.0. Deux variables sont considérées comme présentant une parfait corrélation positive à 1.0, se déplaçant en permanence dans la même direction. Les variables avec une corrélation de 0.0 sont considérées sans aucune corrélation et se déplaçant de manière aléatoire les unes par rapport aux autres. Les variables avec une corrélation de -1.0 se déplacent ensemble, mais dans des directions opposées.

Un exemple de caractéristiques présentant une corrélation positive est la température et l'utilisation de climatiseurs. Plus la température est élevée, plus on s'attend à ce que le nombre de climatiseurs utilisés augmente. À l'inverse, la température et l'utilisation de chauffages présentent une corrélation négative. Plus la température est élevée, moins on s'attend à ce que le nombre de chauffages utilisés augmente.

Les caractéristiques présentant une forte corrélation sont souvent redondantes. Il est recommandé de ne pas inclure deux caractéristiques fortement corrélées dans un modèle.

Différence entre corrélation et causalité

Lorsque l'on observe de fortes corrélations, qu'elles soient positives ou négatives, il est tentant de les associer à une causalité. La causalité est définie comme le mouvement d'une variable entraînant celui de l'autre. Cependant, corrélation ne signifie pas causalité, et il est important de tenir compte de la relation logique sous-jacente entre les deux variables.

Les corrélations qui ne sont pas basées sur une logique sont considérées comme trompeuses. Les corrélations trompeuses sont faciles à découvrir, car il n'existe aucune logique associant les deux variables ensemble. Il est plus courant de percevoir la causalité lorsqu'une variable masque la cause sous-jacente.

Imaginons que nous tentions de comprendre ce qui motive les ventes de maillots de bain dans une chaîne de boutiques. Nous découvrons une relation inattendue entre l'énergie et les ventes de maillots de bain, comme illustré sur le graphique. En fonction de cela, nous pouvons malencontreusement supposer que les ventes de maillots de bain sont fonction de la consommation d'énergie par habitant.

Consommation d'énergie et ventes de maillots de bain

Graphique montrant la corrélation entre l'énergie et le nombre de maillots de bain vendus.

En fait, la consommation d'énergie masque une autre caractéristique : la température. À mesure que la température monte, la demande en climatisation augmente, ce qui accroît la consommation d'énergie. Ce n'est pas l'énergie qui augmente la demande en maillots de bain, mais la température.

Température et ventes de maillots de bain

Graphique montrant la corrélation entre la température et le nombre de maillots de bain vendus.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !