外插法和內插法
進行預測時,資料範圍很重要。若資料範圍內的資料點遺失,內插法和外插法會用來預測遺失範圍中的值。
我們將使用預測檸檬汽水銷售額的範例,說明內插法和外插法的概念。這也顯示您需要注意的外插法風險。在我們的圖表中,針對每日最高溫度繪製了檸檬汽水的美元銷售額。我們可以看見,溫度越溫暖,銷售額就會增加。
我們僅收集溫度介於華氏 70 至 90 度日子的資料。這表示我們的資料範圍或領域是 70–90°F。
內插法
內插法是您在已知值之間或在訓練資料領域內進行預測。在我們的範例中,我們尚未收集任何 77°F 日子的銷售資料。值 77 落在 70-90 之間,因此預測該日的銷售額會被視為內插法。
假設我們想要預測明天的銷售額 (若溫度達 77°F)。圖表中顯示的趨勢線代表機器學習模型會為任何指定溫度預測的內容。在 77°F,模型預測銷售額為 $67。
外插法
外插法表示您在超出已知值的情況下或在訓練資料區域外進行預測。我們對於最高溫度低於 70°F 或高於 90°F 的日子,沒有任何銷售資料。預測低於 70°F 或高於 90°F 日子的銷售額會被視為外插法。
若我們想要預測移動至較熱或較涼的位置或季節會如何影響銷售額,我們需要外插至 65°F 和 95°F。可以再次使用趨勢線預測值,將趨勢線延長到領域之外。
使用外插法的挑戰
我們需要詢問的問題是,趨勢線是否真的可以延續到資料邊界之外。我們的模型預測較溫暖的氣候有較高的銷售額,所以我們應該開始在達到 100°F 的亞利桑那州銷售檸檬汽水?銷售額是否會持續增加,如下圖所示?
假設我們在亞利桑那州搭設了一個檸檬汽水攤位並記錄銷售資料。但銷售額沒有增加,反而是客戶因太熱而待在家,銷售額大幅下降!使用外插法的挑戰是模式不一定永遠相同。在檸檬汽水範例中,外插法導致不良的商務結果。