Problemas de clasificación
Los problemas en los que la columna objetivo es una columna categórica se denominan problemas de clasificación. Los problemas de clasificación binaria tienen dos categorías posibles, como Sí o No, mientras que los problemas de clasificación multiclase tienen más de dos categorías posibles.
Los siguientes ejemplos explican los dos tipos de problemas de clasificación. También analizan algunas de las consideraciones al definir una pregunta de aprendizaje automático.
Ejemplo de clasificación binaria: Abandono de clientes
En este ejemplo, una empresa ofrece un modelo basado en suscripciones. Se han recopilado datos de todos los clientes, actuales y antiguos. Los clientes se han etiquetado como si hubieran cancelado (abandonado) su suscripción o no.
La tabla siguiente muestra los datos recopilados. Cada fila representa un único cliente y las columnas representan diferentes características que describen a ese cliente. La última columna es nuestro objetivo. Esta es una columna binaria que especifica si el cliente ha cancelado su suscripción (Sí o No).
Podríamos usar este conjunto de datos para entrenar un algoritmo de aprendizaje automático que prediga si un determinado cliente abandonará. No obstante, hay algunos problemas con este enfoque:
-
El conjunto de datos compara clientes nuevos y antiguos, y no hay información sobre si los clientes que aún no han cancelado cancelarán en el futuro.
-
Los clientes recién adquiridos pueden tener características que indiquen que pueden abandonar (quizás sabemos que los varones veinteañeros que no compran mucho en su primer mes tienden a cancelar su suscripción poco después). Sin embargo, como son nuevos clientes y aún no han cancelado, estamos entrenando el algoritmo de aprendizaje automático para que asocie esas características con un cliente fiel que no cancelará.
Evite estas trampas siendo preciso en su definición del abandono o rotación de clientes y en cómo prepara un conjunto de datos para resolver el problema. Tener una idea de cómo hacer preguntas de negocio de una manera precisa y apropiada para que puedan ser abordadas por el aprendizaje automático es algo que viene poco a poco con la práctica. Ver buenos y malos ejemplos de cómo hacer esto es útil al iniciarse en el aprendizaje automático para aplicaciones comerciales. Si no está seguro de cómo formular sus preguntas en el aprendizaje automático, considere incorporar un marco de tiempo en la definición de sus métricas de negocio. Esta estrategia suele dar buenos resultados.
Incluir un factor de tiempo
Consideremos la posibilidad de incorporar el tiempo a la pregunta. Podríamos estudiar qué clientes van a cancelar sus servicios en los seis primeros meses. Por ejemplo, podríamos utilizar su comportamiento durante el primer mes como cliente para predecir si cambiará de proveedor en los seis primeros meses. Ahora tenemos una forma precisa de definir el abandono de clientes, una forma que incorpora un marco temporal. Podríamos agregar un conjunto de datos como este:
Aquí, cada fila representa un cliente, pero ahora únicamente incluiremos clientes que históricamente hayan durado al menos seis meses. Para cada uno de ellos se utiliza su número de comprador y cifra de gasto total durante el primer mes, para predecir si abandonaron al cabo de seis meses. A los efectos de esta pregunta, se ha vuelto irrelevante si abandonaron después de los primeros seis meses. La columna objetivo solo nos dice si cancelaron su suscripción dentro de los primeros seis meses.
Ahora, tenemos un conjunto de datos de entrenamiento donde las filas se pueden comparar entre sí. Una vez que entrenamos un modelo en este conjunto de datos, podemos tomar cualquier cliente nuevo que se haya suscrito durante al menos un mes y usar su comportamiento durante el primer mes y nuestro modelo entrenado para predecir si abandonarán durante los primeros seis meses.
Ejemplo de clasificación multiclase: Pétalos de lirio
En este ejemplo tenemos datos sobre una gran muestra de flores de lirio. Para cada flor, hemos registrado la longitud y el ancho de sus pétalos y sépalos, así como la especie de lirio a la que pertenece. En el futuro, cuando encontremos una nueva flor de lirio, nos gustaría poder predecir qué tipo de especie de lirio es en función de la longitud del sépalo, el ancho del sépalo, la longitud del pétalo y el ancho del pétalo.
Podemos alimentar los datos recopilados en un algoritmo de aprendizaje automático que ajusta una función a los datos históricos. Dicha función daría como resultado un tipo de especie pronosticado basado en los valores de las otras cuatro variables. El resultado de salida es una categoría de un conjunto discreto de categorías.
Tenga en cuenta que trabajamos bajo el supuesto de que los datos sobre los que hacemos predicciones en el futuro se parecerán estadísticamente a los datos con los que entrenamos el algoritmo. Si solo hay tres especies diferentes de lirio presentes en el conjunto de datos de entrenamiento, entonces solo podemos usar este algoritmo entrenado para hacer predicciones sobre las flores de esas especies. No podemos esperar que un algoritmo de aprendizaje automático haga predicciones sobre patrones que no fue entrenado para reconocer del conjunto de datos de entrenamiento.