Problemas de regresión
Los problemas de regresión son problemas de aprendizaje automático con una columna de destino numérico. El siguiente ejemplo le mostrará cómo enmarcar una pregunta empresarial de manera precisa y luego agregar un conjunto de datos de entrenamiento donde todas las características estén en igualdad de condiciones. Esto proporciona una buena base para generar un modelo de regresión predictivo.
Ejemplo de regresión: Valor de vida del cliente
Comenzamos asumiendo que un modelo de aprendizaje automático entrenado en clientes históricos aprenderá a predecir el valor de por vida del cliente utilizando varias características que influyen en esa predicción. Recopilamos un conjunto de datos con información histórica sobre todos los clientes pasados y presentes. Hay una fila por cada cliente y las columnas representan características que describen al cliente: identificación del cliente, sexo, edad, fecha en que se convirtió en cliente, código postal, la cantidad de compras que realizó y su gasto monetario total.
Muestra de datos recopilados

Podríamos definir el valor del ciclo de vida del cliente como el gasto monetario total, alimentar el conjunto de datos a un algoritmo de aprendizaje automático y hacer que aprenda a predecir el gasto monetario total. A medida que se adquieran nuevos clientes en el futuro, podríamos usar el algoritmo entrenado para predecir qué valor monetario proporcionarán durante su vida como cliente. Sin embargo, hay varios problemas con este enfoque:
-
El conjunto de datos puede incluir personas que hayan sido clientes durante un día, un mes o un año. El valor del gasto monetario total no refleja cuánto gastará un cliente, sino el total que ha gastado hasta la fecha.
-
Un cliente cuya cuenta tenga un día de antigüedad puede tener las características de un cliente con una alta rentabilidad. Pero debido a que se convirtieron en clientes ayer, solo hicieron una compra y no gastaron mucho dinero. Al incluirlos en el conjunto de datos de entrenamiento, estamos enseñando incorrectamente al algoritmo de aprendizaje automático que son el tipo de cliente que no aporta mucho dinero.
-
Podríamos tener un nuevo cliente que en su primer mes ha pedido productos tres veces por semana, con un total de 12 compras. Alguien más que haya sido cliente durante un año y haya comprado una vez al mes podría haber gastado la misma cantidad de dinero. El algoritmo de aprendizaje automático pondría a estos dos clientes en igualdad en términos del valor de cliente, cuando en realidad el cliente de un mes podría ser significativamente más valioso a largo plazo.
Para evitar estas trampas, debemos ser precisos en la definición del valor del ciclo de vida del cliente y cómo preparar un conjunto de datos para el problema. Una buena manera de lograr esto es incluir el tiempo como un factor en la definición del problema.
Incluir un factor de tiempo
Para incluir un factor de tiempo, comenzamos definiendo el valor del primer año como el dinero total que gasta un cliente en su primer año como cliente. A continuación, podríamos usar el comportamiento de un cliente durante sus primeros tres meses como características para predecir su gasto total durante el primer año. El valor del primer año es una definición precisa de una métrica de interés que incorpora un marco de tiempo. La ventaja de crear una métrica definida con tanta precisión es que pone todos los ejemplos de nuestro conjunto de datos de entrenamiento en igualdad de condiciones.
Tenga en cuenta que, dado que ahora estamos viendo el dinero total que las personas gastaron durante su primer año como clientes, debemos limitar el conjunto de datos de entrenamiento a los clientes que han existido durante al menos un año. Podríamos preparar un conjunto de datos como el siguiente:
Conjunto de datos que incluye un factor de tiempo

Aquí, cada fila representa a una persona que ha sido cliente durante al menos un año. Las columnas incluyen características que describen al cliente en el momento en que se convirtió en cliente, así como características que representan la actividad del cliente durante el período de tiempo elegido.
La actividad se mide por el número de compras realizadas en los primeros tres meses y el gasto monetario total en los primeros tres meses. La columna objetivo representa el dinero total gastado en el primer año. Ese es el valor del primer año que le enseñaremos a predecir al algoritmo de aprendizaje automático.
Observe cómo ahora formulamos una pregunta muy precisa que se define dentro de un marco temporal: "Prediga cuánto dinero le traerá un cliente durante su primer año, basándose en su comportamiento durante los tres primeros meses."
Comparar problemas de regresión y series de tiempo
Los problemas de regresión son similares a los problemas de series de tiempo tanto en la variable objetivo como en los casos de uso del mundo real que implican. También existen varias diferencias entre estos dos tipos de problemas.
Para más información sobre los problemas de series de tiempo, vea Problemas de series temporales.
Similitudes
-
Ambos implican una columna objetivo numérica.
-
Ambos se utilizan comúnmente en casos de uso financieros que implican la previsión de ventas y monetaria.
Diferencias
-
Los problemas de series temporales admiten objetivos agrupados, mientras que los problemas de regresión no (véase Componentes de un problema de series temporales). Los escenarios agrupados aún pueden abordarse para problemas de regresión entrenando múltiples modelos diferentes, a costa del aprendizaje global entre grupos.
-
Los problemas de series temporales admiten escenarios en los que se conocen ciertas variables de características con antelación, por ejemplo, pronósticos relacionados con el clima, descuentos promocionales planificados y si las fechas caen en días laborables, fines de semana o festivos. Estas variables de características se conocen como Características futuras.
-
Para los problemas de series temporales, los datos deben indexarse por fecha o fecha y hora en un intervalo de tiempo fijo. Además, se espera y se genera contenido de datos diferente durante el entrenamiento y las predicciones (consulte Preparar un conjunto de datos de entrenamiento y Preparar un conjunto de datos de aplicación).
-
En los problemas de series temporales, los valores predichos corresponden explícitamente a fechas y horas específicas. En los problemas de regresión, los valores predichos pueden o no corresponder a fechas y horas específicas, pero si lo hacen, esta asociación está implícita en lugar de denotarse explícitamente en el resultado de salida.
-
Se utilizan diferentes algoritmos (véase Entendimiento de los algoritmos del modelo).