Korrelation
Korrelation mäter hur funktionerna i dina data förhåller sig till varandra. Rör sig funktionerna tillsammans, i motsats till varandra eller är de orelaterade?
Korrelationen sträcker sig från -1,0 till 1,0. Två variabler anses ha en perfekt positiv korrelation på 1,0 och rör sig tillsammans i samma riktning hela tiden. Variabler med en korrelation på 0,0 anses vara okorrelerade och rör sig tillsammans i ett slumpmässigt mönster. Variabler med en korrelation på -1,0 rör sig tillsammans, men i motsatt riktning.
Ett exempel på positivt korrelerade funktioner är temperatur och användning av luftkonditioneringsapparater. Ju högre temperaturen är, desto fler luftkonditioneringsapparater kan förväntas användas. Omvänt är temperatur och värmeanvändning negativt korrelerade. Ju högre temperatur desto mindre värme kan förväntas användas.
Funktioner som är starkt korrelerade är sannolikt överflödiga. Det är bäst att inte inkludera två starkt korrelerade funktioner i en modell.
Korrelation är inte orsakssamband
När man observerar starka korrelationer – antingen positiva eller negativa – kan det vara frestande att associera dem med orsakssamband. Orsakssamband är när en rörelse i en variabel orsakar en rörelse i den andra. Korrelation är dock inte detsamma som orsakssamband, och det är viktigt att beakta det underliggande logiska förhållandet mellan de två variablerna.
Korrelationer som inte har någon logisk grund anses vara falska. Falska korrelationer är lätta att upptäcka eftersom det inte finns någon logik som binder samman de två variablerna. Det är vanligare att man uppfattar orsakssamband när en variabel döljer den underliggande orsaken.
Låt oss säga att vi försöker förstå vad som driver försäljningen av baddräkter i en kedja av detaljhandelsbutiker. Vi finner ett oväntat samband mellan energi och försäljning av baddräkter, vilket visas i diagrammet. På grundval av detta kan vi oavsiktligt anta att försäljningen av baddräkter styrs av energiförbrukningen per capita.
I själva verket döljer energiförbrukningen en annan egenskap: temperaturen. När temperaturen stiger ökar efterfrågan på luftkonditionering, vilket ökar energiförbrukningen. Det är inte energin som orsakar efterfrågan på baddräkter, utan temperaturen.