Definir las preguntas de aprendizaje automático
Convertir un caso de uso empresarial en una pregunta de aprendizaje automático específica y útil puede ser un desafío. Siga un marco estructurado para evitar errores habituales y generar un buen modelo predictivo.
El marco describe cómo definir una pregunta de aprendizaje automático y cómo recopilar un conjunto de datos bien estructurado que esté listo para usarse. Para obtener más información sobre cómo preparar un conjunto de datos, consulte Cómo preparar su conjunto de datos para el entrenamiento.
El marco consta de cuatro partes:
-
Activador de eventos
-
Objetivo
-
Características
-
Punto de predicción
Activador de eventos
El activador de eventos es una acción o evento que desencadena la creación de nuevas predicciones. Cada activador de evento corresponde a una sola fila de datos.
Objetivo
El objetivo es el valor que estamos tratando de predecir. Debe ser específico tanto en la forma en que se define el valor, el resultado, como en el marco de tiempo en el que se determina el valor, el horizonte. Definir el resultado y el horizonte depende del contexto empresarial, así como de los datos disponibles. Asegúrese de que el objetivo sea relevante para el contexto empresarial y piense qué acción desea realizar con los valores previstos.
El objetivo se representa en una sola columna del conjunto de datos que utiliza para entrenar los algoritmos de aprendizaje automático.
Características
Las características son las otras columnas de su conjunto de datos que se utilizan para predecir un valor objetivo. Son sus hipótesis sobre qué variables influirán en el objetivo. Los algoritmos de aprendizaje automático usan las características para aprender patrones generales durante el entrenamiento y hacer predicciones sobre nuevas filas de datos.
Las columnas de características constituyen la mayor parte del conjunto de datos de entrenamiento, donde cada característica se representa como una sola columna. Las características deben agregarse al nivel del activador del evento o superior.
Las características pueden ser fijas, lo que significa que se conocen en el momento de desencadenarse el evento o antes, o pueden depender de la ventana, lo que significa que los datos se recopilan después de desencadenarse el evento pero antes del punto de predicción.
Punto de predicción
El punto de predicción es el momento designado en el que se dejan de recoger datos para las características y se predice el objetivo de cada fila. Decidir dónde debe caer el punto de predicción es un equilibrio entre la precisión (predecir lo suficientemente tarde como para haber recopilado datos de características de calidad) y la capacidad de acción (predecir lo suficientemente temprano como para tomar medidas que afecten al resultado).
El tiempo transcurrido entre el desencadenante del evento y el punto de predicción es la ventana de acumulación de datos. Este es el tiempo que se utiliza para recopilar datos de características. El tiempo transcurrido entre el punto de predicción y el horizonte es la ventana de acción, que es el tiempo que se emplea para actuar sobre lo pronosticado. El punto de predicción puede estar en cualquier lugar entre el activador del evento y el horizonte de destino.
Ejemplos: marco estructurado
Los siguientes ejemplos muestran cómo se puede usar el marco estructurado en diferentes casos de uso empresarial. Para ver un ejemplo detallado en el que se aplica el marco paso a paso, consulte Aplicar el marco estructurado: Ejemplo de abandono de clientes.
Valor del ciclo de vida de un cliente
-
Evento desencadenante: un cliente realiza su primer pedido
-
Objetivo: importe total de los pedidos en los tres primeros años
-
Resultado numérico: importe en dólares
-
El horizonte se basa en la duración promedio del ciclo de vida del cliente
-
-
Características: Origen de la oportunidad o lead, Importe del primer pedido, Descuento utilizado en el primer pedido (Sí o No), Estado de envío, Región de envío, Número de productos en el primer pedido
-
Punto de predicción: tres meses después del primer pedido
-
Pregunta de aprendizaje automático: "Predecir tres meses después del primer pedido de un cliente, cuál será el importe total de sus pedidos en los próximos 33 meses"
El cliente vuelve a comprar
-
Evento desencadenante: un cliente realiza un pedido
-
Objetivo: se realiza otro pedido en un plazo de seis meses
-
Resultado binario: Sí o No
-
El horizonte determinado por los datos de que el 90 por ciento de los clientes que vuelven a comprar lo hacen en seis meses o menos
-
-
Características: Origen del tráfico, Número de pedidos anteriores, Descuento utilizado, Estado de envío, Región de envío, Número de productos pedidos, Correo electrónico de notificación de envío abierto (Sí o No), Regresó al sitio en un plazo de 10 días, Se suscribió a los correos electrónicos de marketing (Sí o No).
-
Punto de predicción: una semana después del pedido
-
Pregunta de aprendizaje automático: "Predecir una semana después de que un cliente realice un pedido, si volverá a realizarlo en un plazo de seis meses"
Conversión de clientes potenciales en ventas cerradas
-
Evento desencadenante: se crea un cliente potencial
-
Objetivo: se convierte en venta cerrada en un plazo de 12 meses desde su creación
-
Resultado binario: Sí o No
-
El horizonte está basado en la duración histórica del ciclo de ventas.
-
-
Características: Fuente u origen de clientes potenciales, Sector, Tamaño de la empresa, Número de puntos de contacto los primeros 30 días, Reunión programada en un plazo de 30 días (Sí o No), Número de teléfono exacto (Sí o No)
-
Punto de predicción: 30 días después de la creación de la oportunidad o lead
-
Pregunta de aprendizaje automático: "Predecir 30 días después de la creación de un lead, ¿se convertirá ese lead en una oportunidad cerrada en los próximos 11 meses?"
Graduación de un estudiante
-
Evento desencadenante: un estudiante es aceptado para estudiar en una universidad
-
Objetivo: los estudiantes se gradúan en un plazo de seis años desde el inicio del programa
-
Resultado binario: Sí o No
-
El horizonte se basa en la duración histórica del tiempo para graduarse
-
-
Características: Tipo de instituto donde cursó, Nota media del instituto, Puntuación SAT/ACT, Puntuación del examen de nivel, Distancia del instituto al campus en el que se matricula, Nivel de becas, Nivel de estudios de los padres, Nota media del primer semestre, Número de créditos del primer semestre
-
Punto de predicción: Fin del primer semestre matriculado
-
Pregunta de aprendizaje automático: "Predecir al final de su primer semestre, si un estudiante se graduará al final del sexto año"
Ventas por mes
-
Evento desencadenante: primer día del mes
-
Objetivo: ventas en número de unidades durante el mes
-
Resultado numérico: número de unidades vendidas
-
El horizonte se basa en el mes natural
-
-
Características: Tipo de producto, Nombre del mes, Trimestre, Ventas del año pasado el mismo mes, Ventas en el mismo mes de dos años anteriores, Ventas del mes anterior, Descuento medio %, Gasto en marketing
-
Punto de predicción: primer día del mes
-
Pregunta de aprendizaje automático: "Predecir el primer día del mes, cuál será el total de ventas en número de unidades al final del mes"