Correlatie
Correlatie meet hoe de kenmerken in uw gegevens zich tot elkaar verhouden. Bewegen de kenmerken gelijk, tegenovergesteld, of zijn ze niet gerelateerd?
Correlatie varieert van -1,0 tot 1,0. Twee variabelen worden beschouwd als een perfect positieve correlatie bij 1,0. Ze bewegen altijd samen in dezelfde richting. Variabelen met een correlatie van 0,0 worden gezien als niet-gecorreleerd en bewegen allebei in een willekeurig patroon. Variabelen met een correlatie van -1,0 bewegen samen, maar in tegenovergestelde richtingen.
Een voorbeeld van positief gecorreleerde kenmerken is temperatuur en airconditioner-gebruik. Des te hoger de temperatuur, des te meer gebruikte airconditioners u zou verwachten. Daarentegen zijn temperatuur en verwarmingsgebruik negatief gecorreleerd. Des te hoger de temperatuur, hoe minder verwarmingsgebruik u zou verwachten.
Kenmerken die een hoge correlatie hebben, zijn waarschijnlijk overbodig. Het wordt aanbevolen niet twee kenmerken met hoge correlatie aan één model toe te voegen.
Correlatie is geen oorzakelijk verband
Wanneer u hoge correlaties ziet, hetzij positief, hetzij negatief, kan het verleidelijk zijn ze te associëren met een oorzakelijk verband. Oorzakelijk verband is wanneer beweging in één variabele beweging in de andere veroorzaakt. Maar correlatie betekent niet oorzakelijk en het is daarom belangrijk om de onderliggende, logische relatie tussen de twee variabelen in ogenschouw te nemen.
Correlaties die niet zijn niet gegrond in logica, worden gezien als onlogisch. Onlogische correlaties zijn eenvoudig te ontdekken omdat er geen logische element is dat de twee variabelen verbindt. Het is gebruikelijker om een oorzakelijk verband te zien wanneer de variabele een onderliggende oorzaak verbergt.
Stel dat we proberen te begrijpen wat de verkoop van zwemkleding bij een keten van winkels stimuleert. We vinden een onverwachte relatie tussen energie en de verkoop van zwemkleding, zoals weergegeven in het diagram. Op basis hiervan zouden we onbedoeld kunnen aannemen dat de verkoop van zwemkleding wordt gestimuleerd door het energieverbruik per persoon.
Maar het energieverbruik maskeert een ander kenmerk: temperatuur. Naar mate de temperatuur stijgt, stijgt ook de vraag naar airconditioning en dat verhoogt het energieverbruik. Het is niet het energieverbruik dat de vraag naar zwemkleding veroorzaakt, maar de temperatuur.