Ekstrapolacja i interpolacja
Podczas tworzenia predykcji istotny jest zakres danych. Jeśli brakuje punktów danych w zakresie danych, do przewidywania wartości, które znajdują się w brakującym zakresie, używa się interpolacji i ekstrapolacji.
Aby zilustrować pojęcia interpolacji i ekstrapolacji, posłużymy się przykładem przewidywania sprzedaży lemoniady. Pokazuje on również ryzyko związane z ekstrapolacją, z którego należy zdawać sobie sprawę. Na naszym wykresie sprzedaż lemoniady w dolarach jest przedstawiona w odniesieniu do maksymalnej temperatury dziennej. Widzimy, że sprzedaż rośnie, gdy wzrasta temperatura.
Zebraliśmy dane tylko dotyczące dni z temperaturą od 70 do 90°F (21–32°C). Oznacza to, że nasz zakres danych, czyli domena, to 70–90°F.
Interpolacja
Interpolacja występuje wtedy, gdy dokonuje się predykcji między znanymi wartościami lub w domenie danych do uczenia. W naszym przykładzie nie zebraliśmy żadnych danych dotyczących sprzedaży w dniu o temperaturze 77°F. Wartość 77 mieści się w przedziale 70–90, więc przewidywanie sprzedaży na ten dzień można uznać za interpolację.
Załóżmy, że chcemy przewidzieć, jaka będzie jutro sprzedaż, jeśli temperatura osiągnie 77°F. Linia trendu pokazana na wykresie przedstawia predykcje modelu uczenia maszynowego dla dowolnej temperatury. Przy temperaturze 77°F model przewiduje sprzedaż w wysokości 67 USD.
Ekstrapolacja
Ekstrapolacja oznacza, że dokonujesz predykcji wykraczającej poza znane wartości lub poza domenę danych do uczenia. Nie mamy danych sprzedaży dotyczących dnia z maksymalną temperaturą poniżej 70°F ani powyżej 90°F. Przewidywanie sprzedaży w dniach o temperaturze poniżej 70°F lub powyżej 90°F byłoby uważane za ekstrapolację.
Jeśli chcemy przewidzieć, jak przeniesienie się do cieplejszego lub chłodniejszego miejsca lub inna pora roku wpłynie na sprzedaż, musimy dokonać ekstrapolacji do 65°F i 95°F. Linię trendu można ponownie wykorzystać do przewidywania wartości, rozszerzając ją poza domenę.
Problem z ekstrapolacją
Musimy sobie zadać pytanie: czy linia trendu naprawdę wykracza poza granice naszych danych. Nasz model przewiduje wyższą sprzedaż w cieplejsze dni, więc czy powinniśmy zacząć sprzedawać lemoniadę w Arizonie, w której temperatura osiąga 100°F? Czy sprzedaż nadal rosłaby, jak na następującym wykresie?
Załóżmy, że budujemy stoisko z lemoniadą w Arizonie i rejestrujemy dane sprzedażowe. Zamiast zwiększonej sprzedaży okazuje się, że gdy robi się zbyt gorąco, klienci pozostają w domach, a sprzedaż gwałtownie spada! Problem związany z ekstrapolacją polega na tym, że wzorzec nie zawsze pozostaje taki sam. W przykładzie z lemoniadą ekstrapolacja doprowadziła do złego wyniku biznesowego.