Экстраполяция и интерполяция
При прогнозировании важное значение имеет диапазон данных. Если в диапазоне данных отсутствуют точки данных, для прогнозирования отсутствующих значений используются интерполяция и экстраполяция.
Рассмотрим пример прогнозирования продаж лимонада, чтобы наглядно объяснить понятия интерполяции и экстраполяции. Он также показывает риски, связанные с экстраполяцией, о которых важно знать. На графике показаны продажи лимонада в долларах в зависимости от максимальной дневной температуры. Здесь видно, что продажи растут с повышением температуры.
Данные были собраны только для дней с температурой от 70 (21 °С) до 90 (32 °C) градусов по Фаренгейту. Это означает, что диапазон данных или интервал составляет 70–90 °F.
Интерполяция
Интерполяция — это когда прогнозирование выполняется между известными значениями или в заданном интервале для данных для обучения. В этом примере отсутствуют данные о продажах в день с температурой 77 °F (25 °С). Значение 77 находится в диапазоне 70–90, поэтому прогнозирование продаж в этот день будет считаться интерполяцией.
Допустим, нам необходимо спрогнозировать продажи на завтра, если температура поднимется до 77 °F. Линия тренда на графике представляет собой прогноз модели машинного обучения для любой заданной температуры. При температуре 77 °F модель спрогнозировала продажи в размере 67 долларов.
Экстраполяция
Экстраполяция означает, что прогнозирование выполняется за пределами известных значений или вне заданного интервала для данных для обучения. У нас также нет данных о продажах за день с максимальной температурой ниже 70 °F (21 °С) или выше 90 °F (32 °C). Прогнозирование продаж для дней с температурой ниже 70 °F или выше 90 °F считается экстраполяцией.
Чтобы спрогнозировать продажи в местоположении или сезоне с более высокой или более низкой температурой, необходимо экстраполировать данные на 65 °F (18 °C) и 95 °F (35 °C). Для прогнозирования значений можно снова использовать линию тренда, продлив ее за пределы интервала.
Проблема экстраполяции
При экстраполяции возникает вопрос, действительно ли линия тренда продолжается за пределами имеющихся данных. В данном примере модель спрогнозировала рост продаж в более жаркую погоду, так, может, стоит начать продавать лимонад в Аризоне, где температура воздуха достигает 100 °F (38 °C)? Продолжат ли продажи расти, как показано на графике ниже?
Допустим, мы установили лимонадный киоск в Аризоне и зафиксировали данные о продажах. Оказалось, что покупатели предпочитают оставаться дома, когда становится слишком жарко, и поэтому продажи не выросли, а резко упали! Проблема экстраполяции заключается в том, что закономерность не всегда остается неизменной. В примере с лимонадным киоском экстраполяция привела к плохому бизнес-результату.