Saltar al contenido principal Saltar al contenido complementario

Equilibrio de clases

En un problema de clasificación binaria, puede haber más datos recopilados para una de las dos clases. Este equilibrio desigual entre las clases hace que el modelo aprenda más sobre la clase mayoritaria que sobre la clase minoritaria. Puede utilizar el equilibrio de clases para mejorar el modelo.

¿Qué es el equilibrio de clases?

En un conjunto de datos para la clasificación binaria hay dos clases. El equilibrio de clases es la frecuencia relativa de dichas clases.

Si lanzase una moneda perfectamente aleatoria suficientes veces, obtendría un conjunto perfectamente equilibrado de dos clases (cara y cruz). El valor promedio de clase es 0,5 en un caso perfectamente equilibrado (donde una clase es 1 y la otra clase es 0).

Dos clases perfectamente equilibradas

Gráfico de barras con dos clases equilibradas.

En muchos casos, el equilibrio de clases no será igual. Esto podría llevar a que el modelo aprenda más sobre la clase mayoritaria que sobre la clase minoritaria.

Ejemplos de clases con un equilibrio desigual

Gráfico de barras con clases que no están bien equilibradas.

Sesgo proporcional

Un modelo puede ser muy preciso adivinando la clase mayoritaria en datos no equilibrados. Por ejemplo, si el 95 por ciento de los visitantes de un sitio web no realizan una compra, un modelo puede tener una precisión del 95 por ciento al afirmar que nadie comprará. El modelo aprende sobre la clase mayoritaria, pero a menudo es más importante aprender sobre la clase minoritaria. Por ejemplo, ¿por qué el otro 5 por ciento de las visitas del sitio web sí realiza compras?

Efectos del equilibrio de clases

Al realizar el equilibrio de clases en sus datos, puede obtener un modelo que se centre más en las características y que haya aprendido más sobre la clase minoritaria. Los efectos potenciales en el modelo incluyen:

  • Puntuación F1 más alta porque ha aumentado el peso de la clase minoritaria.

  • Puntuación de precisión general marginalmente más baja porque no se basa tanto en el sesgo proporcional.

  • Un modelo más informativo porque se basa más en las características y en cómo distinguir las clases como aparte una de otra. Los valores SHAP pueden ser más informativos en un modelo de clase equilibrada.

Tenga en cuenta que en conjuntos de datos pequeños, el equilibrio de clases podría ocasionar una pérdida de datos de entidades. Además, al cambiar las proporciones en el conjunto de datos, es posible que se pierda cierta información, lo que podría sesgar las predicciones del modelo.

Cómo equilibrar las clases

Para equilibrar los datos por clases, primero debe averiguar cuál es el equilibrio ideal para su caso de negocio específico. Se podría necesitar cualquier proporción entre 80/20 y 50/50. Equilibre solo lo suficiente para obtener lo que necesita porque el ajuste excesivo del equilibrio de clases podría conducir a un modelo sobreajustado. Después pruebe el modelo con retenciones manuales.

Sobremuestreo

El sobremuestreo suele ser necesario cuando su clase minoritaria no tiene suficientes datos.

Con el sobremuestreo, se añaden registros de datos para representar a la clase minoritaria. En concreto, consiste en tomar múltiples muestras de la clase minoritaria y añadirlas al conjunto de datos original.

El resultado es un conjunto de datos en el que las clases mayoritarias y minoritarias están más equilibradas.

Sobremuestreo de la clase minoritaria (en azul) para lograr un equilibrio equitativo con la clase mayoritaria (en verde)

Ilustración del sobremuestreo.

Submuestreo

Utilice el submuestreo cuando tenga demasiados datos, sobre todo para la clase mayoritaria.

Con el submuestreo, la clase mayoritaria se muestrea aleatoriamente para que se equilibre mejor con la minoritaria. La figura ilustra cómo se toman las muestras de la clase mayoritaria en el conjunto de datos original para obtener un conjunto de datos con clases equilibradas.

Submuestreo de la clase mayoritaria (en azul) para lograr un equilibrio equitativo con la clase minoritaria (en verde)

Ilustración de submuestreo.

Equilibrio automático de clases en Qlik Predict

Este tema de ayuda describe principalmente cómo puede realizar manualmente el equilibrado de clases, si lo necesita. Si está entrenando modelos utilizando la optimización inteligente de modelos (activada de manera predeterminada en los nuevos Experimentos de ML), Qlik Predict realiza automáticamente el equilibrio de clases durante el proceso de entrenamiento.

Para más información sobre la detección de desequilibrios y el procesamiento específico utilizado, consulte Equilibrio de clases.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.