Puntuación de modelos de clasificación binaria
Los modelos de clasificación binaria distribuyen los resultados en dos categorías, como Sí o No. La exactitud con la que un modelo distribuye los resultados se puede evaluar a través de una variedad de métricas de puntuación.
Las métricas exponen diferentes puntos fuertes y débiles del modelo. Ninguno de ellos puede ser una verdadera medida de un buen ajuste por sí solo. Más específicamente, es importante tener en cuenta que una puntuación de exactitud general muy buena no significa que el modelo sea excelente. Por ejemplo, ¿qué pasaría si una empresa solo tuviera una tasa de conversión del 10 por ciento? El modelo podría obtener una puntuación de exactitud del 90 por ciento simplemente diciendo que ningún cliente potencial se convertiría. Aquí es donde entran en juego F1, la exhaustividad (o sensibilidad) y la precisión, para ayudar a determinar el equilibrio entre los puntos fuertes y débiles de un modelo. Si el modelo supusiera que el 100 % de los prospectos no se convertirán en ventas, F1 sería 0.
Durante el entrenamiento de un experimento de clasificación binaria, los siguientes gráficos se generan automáticamente para proporcionar un análisis rápido de las puntuaciones de los modelos:
Matriz de confusión: un gráfico que resume la precisión de la predicción da como resultado un modelo de clasificación. Vea Matriz de confusión.
Curva ROC: un gráfico que muestra la calidad de un modelo de aprendizaje automático para predecir la clase positiva cuando el resultado real es positivo. Vea AUC y curva ROC.
Matriz de confusión
La mayoría de las métricas para problemas de clasificación binaria se generan mediante diferentes cálculos de los valores en la matriz de confusión. La matriz de confusión es una de las visualizaciones en la pestaña Modelos. Muestra cuántos de los valores reales verdaderos y reales falsos se predijeron correctamente, con un total para cada clase. Los valores que se muestran en el gráfico se basan en los datos de exclusión automática que se utilizan para validar el rendimiento del modelo después del entrenamiento. Cada registro del conjunto de datos se ordena en uno de los cuatro cuadrantes siguientes:
-
Los verdaderos positivos (TP) son valores verdaderos reales que se predijeron correctamente como verdaderos.
-
Los falsos positivos (FP) son valores falsos reales que se predijeron incorrectamente como verdaderos.
-
Los falsos negativos (FN) son valores reales que se predijeron incorrectamente como falsos.
-
Los verdaderos negativos (TN) son valores falsos reales que se predijeron correctamente como falsos.
Debajo de las cifras de cada cuadrante también puede ver los valores porcentuales de las métricas de exhaustividad (TP), la tasa de falsas alarmas/falsos positivos (FP), la tasa de pérdida o falsos negativos (FN) y la especificidad (TN). Pase el cursor sobre un valor para ver una información sobre herramientas con la métrica.
Cualquier caso realista mostrará falsos positivos y falsos negativos en la matriz de confusión. Las predicciones perfectas sobre los datos de entrenamiento indicarían que el modelo ha memorizado las respuestas y tendrá un desempeño deficiente en el mundo real. Querrá asegurarse de haber capturado suficientes aspectos positivos y negativos verdaderos.
F1
La puntuación F1 es una métrica que mide la exactitud del modelo cuando las clases están desequilibradas, centrándose en la exactitud de las predicciones positivas y los registros de positivos reales. Se puede ver la exactitud con la que el modelo captura los resultados que importan. La métrica busca equilibrar la exhaustividad y la precisión para tratar de encontrar algo que idealmente esté en el medio entre esos dos. Tenga en cuenta que cuanto más desequilibrado esté un conjunto de datos, menor será la puntuación F1, incluso con la misma exactitud general.
Si el valor de F1 es alto, todas las demás métricas de puntuación serán altas. Si el valor es bajo, es una señal de que necesita hacer más análisis. No obstante, si la puntuación es muy alta, o si la puntuación de retención es mucho más baja que la puntuación de validación cruzada, podría ser una señal de fuga de datos.
F1 se calcula de la siguiente manera: 2 x ((Precisión x Exhaustividad) / (Precisión + Exhaustividad))
Exhaustividad o Sensibilidad
La exhaustividad, también conocida como sensibilidad, es la tasa de verdaderos positivos. Mide la frecuencia con la que el modelo predijo con exactitud cuando algo era realmente cierto. Es decir, ¿con qué precisión encontró el modelo todos los casos reales dentro de un conjunto de datos? La exhaustividad o sensibilidad es la métrica que nos informa sobre la cantidad que el modelo de Machine Learning es capaz de identificar. Es como una medida del buen recuerdo de la clase positiva, por eso se conoce también con el nombre de recuerdo. Se calcula de la siguiente manera: VP / (VP + FN)
Precisión
La precisión también se conoce como valor predictivo positivo. Mide cuál es la probabilidad de que el modelo sea correcto cuando se hizo una predicción de que algo es cierto. Se calcula de la siguiente manera: VP / (VP + FP)
Es un equilibrio entre exhaustividad (o sensibilidad) y precisión
La sensibilidad puede describirse como la amplitud de la red que arroja el modelo: ¿capturó todas las verdades, incluso si hizo algunas predicciones falsas positivas? ¿Captó el mayor número de valores verdaderos posible? La precisión viene a ser lo contrario de la sensibilidad o exhaustividad. Aquí buscamos estar seguros de que cuando el modelo prediga verdadero, sea muy preciso al predecir verdadero. Sin embargo, con una precisión alta vamos a acabar teniendo más falsos negativos en los que el modelo predice falso incluso cuando algo es cierto.
Existe un equilibrio entre no pasar por alto ningún resultado verdadero y estar seguro de que ninguno de los resultados predichos como verdaderos eran en realidad falsos. La conveniencia de inclinarse por una mayor precisión o una mayor exhaustividad depende del uso que se le dé en su empresa. Por ejemplo, en la predicción del diagnóstico de una enfermedad, hay que asegurarse de no pasar por alto a pacientes que realmente tenían la enfermedad, es decir, falsos negativos.
-
Si el "coste" de un falso negativo es elevado, podría justificarse el uso de un modelo sesgado hacia una alta exhaustividad.
-
Si el "coste" de un falso positivo es elevado, podría estar justificado un modelo sesgado hacia una alta precisión.
Exactitud
La exactitud mide la frecuencia promedio con la que el modelo realiza una predicción correcta. Se calcula como: (VP + VN) / (Todas las predicciones)
Especificidad
La especificidad es la tasa de verdaderos negativos. Mide la frecuencia con la que el modelo predijo con exactitud falso cuando algo era realmente falso. Se calcula de la siguiente manera: VN / (FP + VN)
MCC
El coeficiente de correlación de Matthews (MCC) oscila entre -1 y 1, donde 1 significa que el modelo predijo correctamente todas las muestras. MCC se calcula como: ((VP x VN) - (FP x FN)) / [(VP + FP) x (FN + VN) x (FP + VN) x (VP + FN)]^(1/2)
Tasa de pérdida (Miss rate)
La tasa de pérdida (Miss rate) es la tasa de falsos negativos. Es el ratio o proporción entre el número de falsos negativos y el número total de positivos reales. Se calcula de la siguiente manera: FN / (VP + FN)
Tasa de falsas alarmas o errores tipo I (Fallout)
La tasa de falsas alarmas, también denominadas errores de tipo I en estadística (Fallout en inglés) es la tasa de falsos positivos. Es la relación entre el número de falsos positivos y el número total de negativos reales. Se calcula de la siguiente manera: FP / (FP + VN)
VPN
El valor predictivo negativo (NPV por sus siglas en inglés) mide la probabilidad de que el modelo haya acertado al hacer una predicción de que algo es falso. Se calcula de la siguiente manera: VN / (FN + VN)
Pérdida logística
La pérdida logística es una medida común de exactitud en la regresión logística. Un valor de pérdida logística más bajo significa mejores predicciones: un modelo perfecto tendría una pérdida logística de 0.
AUC y curva ROC
El área bajo la curva (AUC) es una métrica de exactitud más complicada que puede ayudar a comprender el grado de determinismo de un modelo. Describe lo bueno que es el modelo para predecir la clase positiva cuando el resultado real es positivo.
AUC se define como el área bajo una curva ROC. La curva ROC representa la tasa de falsos positivos (eje x de abscisas) frente a la tasa de verdaderos positivos (eje y de ordenadas) para distintos valores de umbral entre 0,0 y 1,0. Dicho de otro modo, representa la tasa de falsas alarmas frente a la tasa de aciertos. Esta curva es útil para comprender si es posible la separación entre clases, lo que indica si los datos son lo suficientemente buenos como para distinguir con precisión entre los resultados previstos.
La tasa de verdaderos positivos se calcula de la siguiente manera: VP / (VP + FN)
-
Cuanto más se acerque la tasa de verdaderos positivos a 1,0 (el área máxima posible bajo la curva), más determinista será el modelo.
-
Cuanto más se acerque la tasa de verdaderos positivos a 0,5, menos determinista será el modelo.
La imagen siguiente muestra una buena curva ROC. Es buena porque la curva debe estar lo más cerca posible de 1, lo que da un AUC alto. La línea de puntos es el azar, 50:50. Si el AUC es bajo, la curva se considera una curva pobre.
Umbral
El umbral es la probabilidad de que una predicción sea cierta. Representa la compensación entre falsos positivos y falsos negativos. El valor de umbral se determina por algoritmo y es probable que haya un valor umbral diferente para cada algoritmo de su modelo.
Ajuste del umbral
El ajuste de umbral es una forma eficaz de garantizar que se selecciona el valor de umbral correcto para optimizar las puntuaciones F1 de los modelos de clasificación binaria. AutoML calcula la precisión y la exhaustividad (o sensibilidad) para cientos de umbrales posibles de 0 a 1. Se elige el umbral que obtiene la puntuación F1 más alta.
Seleccionar el umbral, en lugar de confiar en el umbral predeterminado de 0,5, produce unas predicciones más sólidas en conjuntos de datos que presentan un desequilibrio en el número de casos positivos y negativos.
En el gráfico, el umbral está fijado en 0,5. En este caso, los registros que en realidad eran verdaderos y cuya predicción era inferior a 0,5 recibieron la etiqueta de predicción falsa (falso negativo).
Al cambiar el umbral que decide si un registro se predice verdadero o falso, podemos obtener un sesgo hacia una mayor exhaustividad (sensibilidad) o una mayor precisión.