Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Korrelation

Die Korrelation misst, wie die Features in Ihren Daten miteinander in Beziehung stehen. Bewegen sich die Features zusammen, entgegengesetzt oder sind sie unzusammenhängend?

Die Korrelation reicht von -1,0 bis 1,0. Zwei Variablen gelten bei 1,0 als in perfekter positiver Korrelation, wobei sie sich immer in der gleichen Richtung bewegen. Variablen mit einer Korrelation von 0,0 gelten als nicht korreliert und bewegen sich zusammen in einem zufälligen Muster. Variablen mit einer Korrelation von -1,0 bewegen sich zusammen, aber in entgegengesetzter Richtung.

Ein Beispiel für positiv korrelierte Features sind Temperatur und Klimaanlagennutzung. Je höher die Temperatur, desto höher ist die erwartete Klimaanlagennutzung. Dagegen weisen Temperatur und Heizungsnutzung eine negative Korrelation auf. Je höher die Temperatur, desto niedriger ist die erwartete Heizungsnutzung.

Hochgradig korrelierte Features sind wahrscheinlich redundant. Als Best Practice wird empfohlen, nicht zwei hochgradig korrelierte Features in ein Modell einzuschließen.

Korrelation ist nicht gleich Ursächlichkeit

Wenn starke Korrelationen beobachtet werden – seien sie positiv oder negativ –, ist die Versuchung groß, diese mit Ursächlichkeit gleichzusetzen. Eine Ursächlichkeit liegt vor, wenn die Bewegung einer Variablen die Bewegung der anderen Variablen verursacht. Korrelation bedeutet aber keine Ursächlichkeit, und es ist wichtig, die zugrunde liegende logische Beziehung zwischen den zwei Variablen zu beachten.

Korrelationen, die sich nicht auf Logik stützen, werden als unecht betrachtet. Unechte Korrelationen lassen sich leicht erkennen, da die beiden Variablen nicht durch Logik miteinander verbunden sind. Ursächlichkeit wird häufiger wahrgenommen, wenn eine Variable die zugrunde liegende Ursache verdeckt.

Beispiel: Wir möchten verstehen, was den Verkauf von Badekleidung in einer Kette von Einzelhandelsgeschäften steigert. Wie im Diagramm zu erkennen, finden wir eine unerwartete Beziehung zwischen Stromverbrauch und dem Verkauf von Badekleidung. Darauf gestützt könnten wir irrtümlich annehmen, dass der Verkauf von Badekleidung durch den Pro-Kopf-Stromverbrauch gesteigert wird.

Stromverbrauch und Verkauf von Badekleidung

Das Diagramm zeigt eine Korrelation zwischen Stromverbrauch und der verkauften Badekleidung.

In Wahrheit maskiert der Stromverbrauch aber ein anderes Feature: die Temperatur. Bei steigender Temperatur steigt die Klimaanlagennutzung, wodurch wiederum der Stromverbrauch steigt. Die Nachfrage nach Badekleidung wird nicht vom Stromverbrauch verursacht, sondern von der Temperatur.

Temperatur und Verkauf von Badekleidung

Das Diagramm zeigt eine Korrelation zwischen Temperatur und der verkauften Badekleidung.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!