Extrapolation und Interpolation
Für Vorhersagen ist der Bereich Ihrer Daten wichtig. Wenn Datenpunkte in einem Datenbereich fehlen, wird Interpolation und Extrapolation verwendet, um die im Bereich fehlenden Werte vorherzusagen.
Am Beispiel einer Vorhersage für Limonadenumsatz sollen die Konzepte Interpolation und Extrapolation erläutert werden. Dabei wird auch gezeigt, auf welche Risiken im Zusammenhang mit der Extrapolation geachtet werden muss. In unserem Diagramm wird der Limonadenumsatz in Dollar gegen die tägliche Höchsttemperatur aufgetragen. Wir können sehen, dass der Umsatz bei höheren Temperaturen steigt.
Wir haben nur Daten für Tage mit Temperaturen von 70 bis 90 Grad Fahrenheit erfasst. Das bedeutet, dass unser Datenbereich bzw. die Domäne 70–90°F ist.
Interpolation
Bei einer Interpolation treffen Sie eine Vorhersage zwischen bekannten Werten oder innerhalb der Domäne der Trainingsdaten. In unserem Beispiel wurden keine Umsatzdaten für einen Tag mit 77°F erfasst. Der Wert 77 liegt zwischen 70 und 90. Daher wird eine Umsatzvorhersage für diesen Tag als Interpolation betrachtet.
Wir möchten beispielsweise vorhersagen, wie der Umsatz morgen sein wird, wenn die Temperaturen auf 77°F ansteigen. Die im Diagramm angezeigte Trendlinie stellt dar, was das Modell für maschinelles Lernen für jeden angegebenen Temperaturwert vorhersagen würde. Bei 77°F sagt das Modell einen Umsatz von 67 $ vorher.
Extrapolation
Extrapolation bedeutet, dass wir eine Vorhersage treffen, die über die bekannten Werte hinausgeht oder außerhalb der Domäne der Trainingsdaten liegt. Wir haben keine Umsatzdaten für einen Tag mit Höchsttemperaturen unter 70°F oder über 90°F. Eine Umsatzvorhersage für Tage unter 70°F oder über 90°F würde als Extrapolation betrachtet.
Wenn wir vorhersagen möchten, wie ein Wechsel zu einem wärmeren oder kühleren Standort oder der Jahreszeit sich auf den Umsatz auswirken würde, müssen wir auf 65°F und 95°F extrapolieren. Die Trendlinie kann wieder zur Vorhersage der Werte verwendet werden, indem sie über die Domäne hinaus verlängert wird.
Das Problem bei der Extrapolation
Wir müssen uns die Frage stellen, ob sich die Trendlinie außerhalb der Grenzen unserer Daten tatsächlich fortsetzt. Unser Modell sagt höhere Umsätze bei wärmerem Wetter voraus. Sollten wir also beginnen, Limonade in Arizona zu verkaufen, wo es bis 100°F heiß wird? Würde der Umsatz wie in dem folgenden Diagramm weiter steigen?
Angenommen, wir machen einen Limonadenstand in Arizona auf und halten die Umsatzdaten fest. Aber von wegen Umsatzsteigerung: Die Kunden bleiben zu Hause, wenn es zu heiß wird, und der Umsatz bricht ein! Das Problem bei der Extrapolation ist, dass das Muster nicht immer gleich bleibt. In unserem Limonadenbeispiel führte Extrapolation zu einem schlechten Geschäftsergebnis.