跳到主要内容 跳到补充内容

外插及内插

进行预测时,数据的范围很重要。如果数据范围内缺少数据点,则使用插值和外推来预测缺失范围内的值。

我们将用一个预测柠檬水销量的例子来说明插值和外推的概念。它还显示了您需要注意的外推风险。在我们的图表中,柠檬水的销售额(以美元为单位)与每日最高气温相对应。我们可以看到,随着气温升高,销售额增加。

根据温度绘制的销售数据

销售额与温度的关系图。

我们只收集了温度在 70 到 90 华氏度的几天的数据。这意味着我们的数据范围或域为 70–90 °F。

插值

插值是指在已知值之间或在训练数据的域内进行预测。在我们的示例中,我们没有收集 77°F 一天的任何销售数据。77 值介于 70-90 之间,因此预测当天的销售额将被视为插值。

未收集 77°F 的数据

销售与温度的关系图,线在 77 度。

假设我们想预测如果气温达到 77°F,明天的销售额会是多少。图表中显示的趋势线表示机器学习模型对任何给定温度的预测。在 77°F 时,该模型预测销售额为 $67。

77°F 时 $67 趋势线的预测值

销售与温度的关系图显示 77 度的预测值。

外推

外推意味着您正在进行超出已知值或超出训练数据范围的预测。我们没有最高温度低于 70°F 或高于 90°F 的一天的销售数据。预测低于 70°F 或高于 90°F 的天数的销售额将被视为外推。

如果我们想预测移动到更热或更冷的地点或季节会如何影响销售,我们需要推断到 65°F 和 95°F。趋势线可以再次用于预测值,将其扩展到域之外。

65°F 时 $7 和 95°F 时 $157 的趋势线预测值

销售与温度的关系图显示了 65 度和 95 度的预测值。

外推的挑战

我们需要问的问题是,趋势线是否真的超出了我们的数据范围。我们的模型预测,天气变暖时,柠檬水的销量会更高,那么我们应该在亚利桑那州开始销售柠檬水吗?销售额是否会继续增长,如下图所示?

温度高于 90°F 的预测值

销售与温度的关系图,显示高温的预测值。

假设我们在亚利桑那州建立了一个柠檬水摊,并记录了销售数据。事实证明,当天气太热,销售额急剧下降时,顾客们却呆在家里,而不会促使增加销售额!外推的挑战在于模式并不总是保持不变。在我们的柠檬水例子中,外推导致了糟糕的商业结果。

预测结果遵循红线,但蓝色的实际结果有不同的模式

显示预测值和实际值之间差异的销售额与温度的关系图。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!