Extrapolation et interpolation
Lorsque vous réalisez des prédictions, la plage de vos données a de l'importance. S'il manque des points de données dans une plage de données, l'interpolation et l'extrapolation sont utilisées pour prédire les valeurs qui figurent dans la plage manquante.
Pour illustrer les concepts d'interpolation et d'extrapolation, prenons un exemple de prédiction de ventes de limonade. Cet exemple montre également les risques liés à l'extrapolation dont vous devez être conscient. Sur le graphique, les ventes de limonade en dollars sont tracées en fonction de la température maximale quotidienne. Nous constatons que les ventes augmentent lorsque les températures sont plus élevées.
Nous avons uniquement collecté des données les jours où la température était comprise entre 70 et 90 °F. Cela signifie que notre plage de données, ou domaine, est 70-90 °F.
Interpolation
L'interpolation consiste à réaliser une prédiction entre des valeurs connues ou dans le domaine des données d'apprentissage. Dans notre exemple, nous n'avons collecté aucune donnée de ventes pour une journée où il faisait 77 °F. La valeur 77 est comprise dans la plage 70-90 ; la prédiction des ventes pour cette journée-là sera donc considérée comme une interpolation.
Imaginons que nous souhaitions prédire les ventes de demain si la température atteint 77 °F. La courbe de tendance indiquée sur le graphique montre que le modèle d'apprentissage machine pourrait prédire les ventes pour n'importe quelle température. À 77 °F, le modèle prédit des ventes de 67 $.
Extrapolation
L'extrapolation consiste à réaliser une prédiction au-delà des valeurs connues ou en dehors du domaine des données d'apprentissage. Nous n'avons aucune donnée sur les ventes pour une journée avec une température maximale inférieure à 70 °F ou supérieure à 90 °F. La prédiction des ventes pour des journées de moins de 70 °F ou de plus de 90 °F serait considérée comme une extrapolation.
Si nous souhaitons prédire dans quelle mesure un déménagement à un endroit plus chaud ou plus froid affecterait les ventes, nous devons extrapoler à 65 °F et 95 °F. Encore une fois, la courbe de tendance peut être utilisée pour prédire les valeurs, en l'étendant au-delà du domaine.
Difficultés de l'extrapolation
La question à nous poser est la suivante : la courbe de tendance se poursuit-elle vraiment au-delà des limites de nos données ? Notre modèle prédit des ventes supérieures si le temps est plus chaud. Dans ce cas, devons-nous commencer à vendre de la limonade en Arizona, où la température peut atteindre 100 °F ? Les ventes continueraient-elles à augmenter comme sur le graphique suivant ?
Imaginons que nous construisions un stand de limonade en Arizona et que nous y enregistrions les données des ventes. Au lieu de voir les ventes augmenter, il s'avère que les clients restent à la maison quand il fait trop chaud et que les ventes chutent considérablement ! Le problème, avec l'extrapolation, réside dans le fait que le pattern ne reste pas toujours le même. Dans notre exemple de limonade, l'extrapolation a conduit à un mauvais résultat commercial.