Extrapolatie en interpolatie
Het bereik van uw gegevens is belangrijk wanneer u voorspellingen genereert. Als gegevenspunten ontbreken in een gegevensbereik, worden interpolatie en extrapolatie gebruikt om de waarden die in het bereik ontbreken, te voorspellen.
We gebruiken een voorbeeld waarin limonadeverkoop wordt voorspeld om de concepten van interpolatie en extrapolatie te illustreren. Het toont tevens de risico's van extrapolatie waar u op moet letten. In ons diagram wordt de verkoop van limonade in dollars uitgezet ten opzichte van de dagelijkse maximumtemperatuur. We kunnen zien dat de verkoop toeneemt als de temperatuur hoger is.
We hebben alleen gegevens verzameld voor dagen waarop de temperatuur tussen 70 en 90 graden Fahrenheit lag. Dit betekent dat ons gegevensbereik, oftewel domein 70–90°F is.
Interpolatie
Interpolatie is wanneer u een voorspelling genereert tussen bekende waarden of binnen het domein van de getrainde gegevens. In ons voorbeeld hebben we geen verkoopgegevens verzameld voor een dag waarop de temperatuur 77°F was. De waarde 77 valt tussen 70 en 90 en daarom zou de verkoopvoorspelling voor die dag als interpolatie worden gezien.
Stel dat we willen voorspellen wat de verkoop morgen zal zijn als de temperatuur 77°F is. De in het diagram getoonde trendlijn vertegenwoordigt wat het machine learning-model voor een temperatuur zou voorspellen. Bij 77°F voorspelt 67 dollar aan verkoop.
Extrapolatie
Extrapolatie betekent dat u een voorspelling genereert voor gegevens die buiten de bekende waarden of buiten het domein van de trainingsgegevens liggen. We hebben geen verkoopgegevens voor een dag met een maximumtemperatuur onder 70°F of boven 90°F. Verkoop voorspellen voor dagen onder 70°F of boven 90°F zou extrapolatie zijn.
Als we willen voorspellen hoe verplaatsing naar een warmere of koelere locatie of een ander seizoen de verkoop zou beïnvloeden, moeten we extrapoleren naar 65°F en 95°F. De trendline kan worden gebruikt om de waarden te voorspellen en verbreden hem naar buiten het domein.
De uitdaging van extrapolatie
De vraag doe we moeten stellen is of de trendline werkelijk buiten de grenzen van onze gegevens doorloopt. Ons model voorspelt hogere verkoop bij warmer weer. Zouden we daarom limonade moeten gaan verkopen in Arizona waar het 100°F wordt? Zou de verkoop door blijven stijgen zoals in het volgende diagram?
Stel dat we een limonadekraampje zouden opzetten in Arizona en verkoopgegevens zouden vastleggen. In plaats van verhoogde verkoop blijkt dat de klanten thuis blijven als het te heet wordt en de verkoop scherp daalt! De uitdaging van extrapolatie is dat het patroon niet altijd hetzelfde blijft. In ons limonadevoorbeeld heeft extrapolatie geleid tot een slecht zakelijk resultaat.