Extrapolering och interpolering
Omfattningen av dina data spelar roll när du gör prognoser. Om datapunkter saknas i ett dataområde används interpolering och extrapolering för att förutsäga de värden som finns i det saknade området.
Vi kommer att använda oss av ett exempel där vi förutspår försäljningen av lemonad för att illustrera begreppen interpolering och extrapolering. Det visar också på riskerna med extrapolering som man måste vara medveten om. I vårt diagram visas försäljningen av lemonad i dollar i förhållande till den dagliga maxtemperaturen. Vi kan se att försäljningen ökar med varmare temperaturer.
Vi har endast samlat in data för dagar med temperaturer mellan 70 och 90 grader Fahrenheit. Detta innebär att vårt dataområde, eller domän, är 70–90 °F.
Interpolering
Interpolering är när du gör en prognos mellan kända värden eller inom träningsdatadomänen. I vårt exempel har vi inte samlat in några försäljningsdata för en dag med 77 °F. Värdet 77 ligger mellan 70 och 90, så att förutsäga försäljningen för den dagen skulle betraktas som en interpolering.
Säg att vi vill förutsäga vad försäljningen kommer att vara i morgon om temperaturen når 77 °F. Den trendlinje som visas i diagrammet representerar vad modellen för maskininlärning skulle förutsäga för en given temperatur. Vid 77 °F förutspår modellen en försäljning på 67 dollar.
Extrapolering
Extrapolering innebär att du gör en prognos utanför de kända värdena eller utanför träningsdataområdet. Vi har inga försäljningsdata för en dag med en maximal temperatur under 70 °F eller över 90 °F. Att förutsäga försäljningen för dagar under 70 °F eller över 90 °F skulle betraktas som extrapolering.
Om vi vill förutsäga hur en flytt till en varmare eller kallare plats eller årstid skulle påverka försäljningen måste vi extrapolera till 65 °F och 95 °F. Trendlinjen kan återigen användas för att förutsäga värdena, genom att den förlängs utanför domänen.
Svårigheten med extrapolering
Frågan vi måste ställa oss är om trendlinjen verkligen fortsätter utanför gränserna för våra data. Vår modell förutspår högre försäljning i varmare väder, så ska vi börja sälja lemonad i Arizona där det blir 100 °F? Skulle försäljningen fortsätta att öka på samma sätt som i följande diagram?
Låt oss säga att vi bygger en lemonadkiosk i Arizona och registrerar försäljningsdata. Istället för ökad försäljning visar det sig att kunderna stannar hemma när det blir för varmt och försäljningen sjunker kraftigt! Utmaningen med extrapolering är att mönstret inte alltid förblir detsamma. I vårt exempel med lemonad ledde extrapoleringen till ett dåligt affärsresultat.