外插及内插
进行预测时,数据的范围很重要。如果数据范围内缺少数据点,则使用插值和外推来预测缺失范围内的值。
我们将用一个预测柠檬水销量的例子来说明插值和外推的概念。它还显示了您需要注意的外推风险。在我们的图表中,柠檬水的销售额(以美元为单位)与每日最高气温相对应。我们可以看到,随着气温升高,销售额增加。
我们只收集了温度在 70 到 90 华氏度的几天的数据。这意味着我们的数据范围或域为 70–90 °F。
插值
插值是指在已知值之间或在训练数据的域内进行预测。在我们的示例中,我们没有收集 77°F 一天的任何销售数据。77 值介于 70-90 之间,因此预测当天的销售额将被视为插值。
假设我们想预测如果气温达到 77°F,明天的销售额会是多少。图表中显示的趋势线表示机器学习模型对任何给定温度的预测。在 77°F 时,该模型预测销售额为 $67。
外推
外推意味着您正在进行超出已知值或超出训练数据范围的预测。我们没有最高温度低于 70°F 或高于 90°F 的一天的销售数据。预测低于 70°F 或高于 90°F 的天数的销售额将被视为外推。
如果我们想预测移动到更热或更冷的地点或季节会如何影响销售,我们需要推断到 65°F 和 95°F。趋势线可以再次用于预测值,将其扩展到域之外。
外推的挑战
我们需要问的问题是,趋势线是否真的超出了我们的数据范围。我们的模型预测,天气变暖时,柠檬水的销量会更高,那么我们应该在亚利桑那州开始销售柠檬水吗?销售额是否会继续增长,如下图所示?
假设我们在亚利桑那州建立了一个柠檬水摊,并记录了销售数据。事实证明,当天气太热,销售额急剧下降时,顾客们却呆在家里,而不会促使增加销售额!外推的挑战在于模式并不总是保持不变。在我们的柠檬水例子中,外推导致了糟糕的商业结果。