Correlación
La correlación mide cómo se relacionan entre sí las características de sus datos. ¿Las características avanzan juntas, de forma opuesta o no están relacionadas?
La correlación varía de -1,0 a 1,0. Se considera que dos variables tienen una correlación positiva perfecta en 1,0, moviéndose juntas en la misma dirección todo el tiempo. Las variables con una correlación de 0,0 se consideran no correlacionadas y se mueven conjuntamente en un patrón aleatorio. Las variables con una correlación de -1,0 se mueven juntas, pero en direcciones opuestas.
Un ejemplo de características correlacionadas positivamente es la temperatura y el uso del aire acondicionado. Cuanto más alta sea la temperatura, más frigorías de aparatos de aire acondicionado se necesitarán. Por el contrario, la temperatura y el uso de calor están negativamente correlacionados. Cuanto mayor sea la temperatura, menos calor se esperará utilizar.
Es probable que las características que están altamente correlacionadas sean redundantes. Es una buena práctica no incluir dos características altamente correlacionadas en un modelo.
La correlación no es causalidad
Cuando observamos fuertes correlaciones, ya sean positivas o negativas, puede ser tentador asociarlas con la causalidad. La causalidad es cuando el movimiento en una variable provoca el movimiento en otra. Sin embargo, correlación no significa causalidad y es importante considerar la relación lógica subyacente entre las dos variables.
Las correlaciones que no se basan en la lógica se consideran espurias. Las correlaciones espurias son fáciles de descubrir porque no existe una lógica que una las dos variables. Es más habitual percibir causalidad cuando una variable oculta la causa subyacente.
Digamos que estamos tratando de entender qué impulsa las ventas de trajes de baño en una cadena de tiendas minoristas. Encontramos una relación inesperada entre la energía y las ventas de trajes de baño, como se muestra en el gráfico. En base a esto, podríamos suponer sin querer que las ventas de trajes de baño están impulsadas por el consumo de energía per cápita.
De hecho, el consumo de energía enmascara otra característica: la temperatura. A medida que aumenta la temperatura, aumenta la demanda de aire acondicionado, lo que aumenta el consumo de energía. La energía no está causando la demanda de trajes de baño, pero la temperatura sí.