Extrapolación e interpolación
El rango de los datos importa cuando se hacen predicciones. Si faltan puntos de datos en un rango de datos, se utiliza la interpolación y la extrapolación se utiliza en cambio para predecir los valores que están en el rango que falta.
Usaremos un ejemplo de predicción de ventas de limonada para ilustrar los conceptos de interpolación y extrapolación. También muestra los riesgos de la extrapolación que debe tener en cuenta. En nuestro gráfico, las ventas de limonada en dólares se representan frente a la temperatura máxima diaria. Podemos ver que las ventas aumentan cuando las temperaturas son más cálidas.
Solo hemos recopilado datos para días con temperaturas de 70 a 90 grados Fahrenheit. Esto significa que nuestro rango de datos, o dominio, es de 70 a 90 °F.
Interpolación
La interpolación es cuando realiza una predicción entre valores conocidos o dentro del dominio de los datos de entrenamiento. En nuestro ejemplo, no hemos recopilado ningún dato de ventas para un día de 77 °F. El valor 77 se encuentra entre 70 y 90, por lo que predecir las ventas para ese día se consideraría una interpolación.
Supongamos que queremos predecir cuáles serán las ventas mañana si la temperatura alcanza los 77 °F. La línea de tendencia que se muestra en el gráfico representa lo que predeciría el modelo de aprendizaje automático para cualquier temperatura determinada. A 77 °F, el modelo predice 67 $ en ventas.
Extrapolación
La extrapolación significa que está haciendo una predicción más allá de los valores conocidos o fuera del dominio de los datos de entrenamiento. No tenemos datos de ventas para un día con temperatura máxima inferior a 70 °F o superior a 90 °F. La predicción de ventas para días por debajo de los 70 °F o por encima de los 90 °F se consideraría una extrapolación.
Si queremos predecir cómo afectaría las ventas el traslado a una ubicación o estación más cálida o más fría, debemos extrapolar a 65 °F y 95 °F. La línea de tendencia se puede volver a utilizar para predecir los valores, extendiéndola más allá del dominio.
El desafío de la extrapolación
La pregunta que debemos hacernos es si la línea de tendencia realmente continúa fuera de los límites de nuestros datos. Nuestro modelo predice mayores ventas en climas más cálidos, entonces, ¿deberíamos comenzar a vender limonada en Arizona, donde alcanza los 100 °F? ¿Seguirían aumentando las ventas como en el siguiente gráfico?
Supongamos que construimos un puesto de venta de limonada en Arizona y registramos los datos de ventas. ¡En lugar de aumentar las ventas, resulta que los clientes se quedan en casa cuando hace demasiado calor y las ventas caen drásticamente! El desafío de la extrapolación está en que el patrón no siempre es el mismo. En nuestro ejemplo de venta de limonada, la extrapolación condujo a un mal resultado comercial.