Problemas de regresión
Los problemas de regresión son problemas de aprendizaje automático con una columna de destino numérico. El siguiente ejemplo le mostrará cómo enmarcar una pregunta empresarial de manera precisa y luego agregar un conjunto de datos de entrenamiento donde todas las características estén en igualdad de condiciones. Esto proporciona una buena base para generar un modelo de regresión predictivo.
Ejemplo de regresión: Valor del ciclo de vida de un cliente
Comenzamos asumiendo que un modelo de aprendizaje automático entrenado en clientes históricos aprenderá a predecir el valor de por vida del cliente utilizando varias características que influyen en esa predicción. Recopilamos un conjunto de datos con información histórica sobre todos los clientes pasados y presentes. Hay una fila por cada cliente y las columnas representan características que describen al cliente: identificación del cliente, sexo, edad, fecha en que se convirtió en cliente, código postal, la cantidad de compras que realizó y su gasto monetario total.
Podríamos definir el valor del ciclo de vida del cliente como el gasto monetario total, alimentar el conjunto de datos a un algoritmo de aprendizaje automático y hacer que aprenda a predecir el gasto monetario total. A medida que se adquieran nuevos clientes en el futuro, podríamos usar el algoritmo entrenado para predecir qué valor monetario proporcionarán durante su vida como cliente. Sin embargo, hay varios problemas con este enfoque:
-
El conjunto de datos puede incluir personas que hayan sido clientes durante un día, un mes o un año. El valor del gasto monetario total no refleja cuánto gastará un cliente, sino el total que ha gastado hasta la fecha.
-
Un cliente cuya cuenta tenga un día de antigüedad puede tener las características de un cliente con una alta rentabilidad. Pero debido a que se convirtieron en clientes ayer, solo hicieron una compra y no gastaron mucho dinero. Al incluirlos en el conjunto de datos de entrenamiento, estamos enseñando incorrectamente al algoritmo de aprendizaje automático que son el tipo de cliente que no aporta mucho dinero.
-
Podríamos tener un nuevo cliente que en su primer mes ha pedido productos tres veces por semana, con un total de 12 compras. Alguien más que haya sido cliente durante un año y haya comprado una vez al mes podría haber gastado la misma cantidad de dinero. El algoritmo de aprendizaje automático pondría a estos dos clientes en igualdad en términos del valor de cliente, cuando en realidad el cliente de un mes podría ser significativamente más valioso a largo plazo.
Para evitar estas trampas, debemos ser precisos en la definición del valor del ciclo de vida del cliente y cómo preparar un conjunto de datos para el problema. Una buena manera de lograr esto es incluir el tiempo como un factor en la definición del problema.
Incluir un factor de tiempo
Para incluir un factor de tiempo, comenzamos definiendo el valor del primer año como el dinero total que gasta un cliente en su primer año como cliente. A continuación, podríamos usar el comportamiento de un cliente durante sus primeros tres meses como características para predecir su gasto total durante el primer año. El valor del primer año es una definición precisa de una métrica de interés que incorpora un marco de tiempo. La ventaja de crear una métrica definida con tanta precisión es que pone todos los ejemplos de nuestro conjunto de datos de entrenamiento en igualdad de condiciones.
Tenga en cuenta que, dado que ahora estamos viendo el dinero total que las personas gastaron durante su primer año como clientes, debemos limitar el conjunto de datos de entrenamiento a los clientes que han existido durante al menos un año. Podríamos preparar un conjunto de datos como el siguiente:
Aquí, cada fila representa a una persona que ha sido cliente durante al menos un año. Las columnas incluyen características que describen al cliente en el momento en que se convirtió en cliente, así como características que representan la actividad del cliente durante el período de tiempo elegido.
La actividad se mide por el número de compras realizadas en los primeros tres meses y el gasto monetario total en los primeros tres meses. La columna objetivo representa el dinero total gastado en el primer año. Ese es el valor del primer año que le enseñaremos a predecir al algoritmo de aprendizaje automático.
Observe cómo ahora estamos haciendo una pregunta muy precisa que se define dentro de un marco de tiempo: "Predecir cuánto dinero aportará un cliente durante su primer año, en función de su comportamiento durante los primeros tres meses".