Estrapolazione e interpolazione
La gamma dei dati è importante quando si effettuano previsioni. Se in un intervallo di dati mancano dei punti dati, si ricorre all'interpolazione e all'estrapolazione per prevedere i valori che si trovano nell'intervallo mancante.
Utilizzeremo un esempio di previsione delle vendite di limonata per illustrare i concetti di interpolazione ed estrapolazione. Mostra anche i rischi dell'estrapolazione di cui bisogna essere consapevoli. Nel nostro grafico, le vendite di limonata in dollari sono rapportate alla temperatura massima giornaliera. Possiamo notare che le vendite aumentano con le temperature più calde.
Abbiamo raccolto dati solo per i giorni con temperature comprese tra 70 e 90 gradi Fahrenheit. Ciò significa che il nostro intervallo di dati, o dominio, è di 70-90°F.
Interpolazione
Si parla di interpolazione quando si effettua una previsione tra valori noti o all'interno del dominio dei dati di training. Nel nostro esempio, non abbiamo raccolto i dati di vendita per un giorno a 77°F. Il valore 77 è compreso tra 70 e 90, quindi la previsione delle vendite per quel giorno sarebbe considerata un'interpolazione.
Supponiamo di voler prevedere quali saranno le vendite di domani se la temperatura raggiungerà i 77°F. La linea di tendenza mostrata nel grafico rappresenta la previsione del modello di machine learning per qualsiasi temperatura. A 77°F, il modello prevede vendite per 67 dollari.
Estrapolazione
Estrapolare significa fare una previsione al di là dei valori noti o al di fuori del dominio dei dati di training. Non abbiamo dati di vendita per un giorno con temperatura massima inferiore a 70°F o superiore a 90°F. La previsione delle vendite per i giorni con temperatura inferiore a 70°F o superiore a 90°F sarebbe considerata un'estrapolazione.
Se vogliamo prevedere come il trasferimento in una località o in una stagione più calda o più fredda possa influire sulle vendite, dobbiamo estrapolare a 65°F e a 95°F. La linea di tendenza può essere nuovamente utilizzata per prevedere i valori, estendendola oltre il dominio.
La sfida dell'estrapolazione
La domanda che dobbiamo porci è se la linea di tendenza continua davvero al di fuori dei limiti dei nostri dati. Il nostro modello prevede un aumento delle vendite nei climi più caldi, quindi dovremmo iniziare a vendere limonata in Arizona, dove si raggiungono i 100°F? Le vendite continuerebbero ad aumentare come nel grafico seguente?
Supponiamo di costruire un chiosco di limonate in Arizona e di registrare i dati di vendita. Invece di aumentare le vendite, si scopre che i clienti rimangono a casa quando fa troppo caldo e le vendite diminuiscono drasticamente! Il problema dell'estrapolazione è che il modello non rimane sempre lo stesso. Nel nostro esempio di limonata, l'estrapolazione ha portato a un cattivo risultato commerciale.