Equilibrio de clases
En un problema de clasificación binaria, puede haber más datos recopilados para una de las dos clases. Este equilibrio desigual entre las clases hace que el modelo aprenda más sobre la clase mayoritaria que sobre la clase minoritaria. Puede utilizar el equilibrio de clases para mejorar el modelo.
¿Qué es el equilibrio de clases?
En un conjunto de datos para la clasificación binaria hay dos clases. El equilibrio de clases es la frecuencia relativa de dichas clases.
Si lanzase una moneda perfectamente aleatoria suficientes veces, obtendría un conjunto perfectamente equilibrado de dos clases (cara y cruz). El valor promedio de clase es 0,5 en un caso perfectamente equilibrado (donde una clase es 1 y la otra clase es 0).
En muchos casos, el equilibrio de clases no será igual. Esto podría llevar a que el modelo aprenda más sobre la clase mayoritaria que sobre la clase minoritaria.
Sesgo proporcional
Un modelo puede ser muy preciso adivinando la clase mayoritaria en datos no equilibrados. Por ejemplo, si el 95 por ciento de los visitantes de un sitio web no realizan una compra, un modelo puede tener una precisión del 95 por ciento al afirmar que nadie comprará. El modelo aprende sobre la clase mayoritaria, pero a menudo es más importante aprender sobre la clase minoritaria. Por ejemplo, ¿por qué el otro 5 por ciento de las visitas del sitio web sí realiza compras?
Efectos del equilibrio de clases
Al realizar el equilibrio de clases en sus datos, puede obtener un modelo que se centre más en las características y que haya aprendido más sobre la clase minoritaria. Los efectos potenciales en el modelo incluyen:
-
Puntuación F1 más alta porque ha aumentado el peso de la clase minoritaria.
-
Puntuación de precisión general marginalmente más baja porque no se basa tanto en el sesgo proporcional.
-
Un modelo más informativo porque se basa más en las características y en cómo distinguir las clases como aparte una de otra. Los valores SHAP pueden ser más informativos en un modelo de clase equilibrada.
Tenga en cuenta que en conjuntos de datos pequeños, el equilibrio de clases podría ocasionar una pérdida de datos de entidades. Además, al cambiar las proporciones en el conjunto de datos, es posible que se pierda cierta información, lo que podría sesgar las predicciones del modelo.
Cómo equilibrar las clases
Para equilibrar los datos por clases, primero debe averiguar cuál es el equilibrio ideal para su caso de negocio específico. Se podría necesitar cualquier proporción entre 80/20 y 50/50. Equilibre solo lo suficiente para obtener lo que necesita porque el ajuste excesivo del equilibrio de clases podría conducir a un modelo sobreajustado. Después pruebe el modelo con retenciones manuales.
El método más habitual para el equilibrio de clases es el submuestreo. Este se realiza mediante un muestreo aleatorio de la clase mayoritaria para que se equilibre mejor con la clase minoritaria. La figura ilustra cómo se toman las muestras de la clase mayoritaria en el conjunto de datos original para obtener un conjunto de datos con clases equilibradas.