外挿と内挿
予測をするときは、データの範囲が重要になります。データ範囲でデータ ポイントが欠落している場合は、内挿と外挿を使用して、欠落している範囲にある値を予測します。
レモネードの売上高を予測する例を使用して、内挿と外挿の概念について説明します。また、注意が必要な外挿のリスクについても紹介します。チャートでは、レモネードの売上高 (ドル) が、1 日の最高気温に対してプロットされています。気温が高くなるほど、売上高が伸びていることがわかります。
気温が華氏 70 ~ 90 度の日のデータのみを収集しました。これは、データ範囲または領域が 70 ~ 90°F であることを意味します。
内挿
内挿とは、既知の値の間、またはトレーニング データの領域内で予測することです。この例では、77°F の日の売上高データは収集されていません。77 という値は 70 ~ 90 の間にあるため、その日の売上高の予測は内挿とみなされます。
明日の気温が 77°F になった場合の売上高を予測してみましょう。チャートに示されている近似曲線は、特定の温度に対して機械学習モデルが予測する値を表しています。77°F では、モデルは 67 ドルの売上高を予測します。
外挿
外挿とは、既知の値を超えて、またはトレーニング データの領域外で予測することです。最高気温が 70°F 未満または 90°F を超える日の売上高データはありません。70°F 未満または 90°F を超える日の売上高の予測は、外挿とみなされます。
暑い場所または寒い場所への移動や、季節が売上高にどのように影響するかを予測する場合は、65°F と 95°F に外挿する必要があります。領域を超え拡張して値を予測するために、再び近似曲線を使用できます。
外挿における課題
ここで問われるのは、近似曲線が実際にデータの範囲外に続くかどうかです。このモデルでは、気温が高くなるほど売上高が増えると予測しています。では、気温が 100°F に達するアリゾナでレモネードの販売を開始するべきでしょうか。次のチャートのように、売上高は増加し続けるでしょうか。
アリゾナでレモネードの屋台を作り、売上高データを記録するとします。売上高が増えるどころか、暑すぎると顧客は家にこもり、売上高が激減することが判明しました。外挿の課題は、パターンが常に同じになるとは限らないことです。レモネードの例では、外挿が悪い結果につながりました。