Pontuando modelos de classificação binária
Os modelos de classificação binária distribuem os resultados em duas categorias, como Sim ou Não. A exatidão com que um modelo distribui os resultados pode ser avaliada em uma variedade de métricas de pontuação.
As métricas expõem diferentes pontos fortes e fracos do modelo. Nenhum deles pode ser uma verdadeira medida de um bom ajuste por conta própria. Especificamente, é importante observar que uma pontuação de exatidão geral excelente não significa que o modelo seja excelente. Por exemplo, e se uma empresa tivesse apenas uma taxa de conversão de 10%? O modelo poderia obter uma pontuação de exatidão de 90% simplesmente dizendo que nenhum lead seria convertido. É aqui que a F1, o recall e a precision entram em ação para ajudar a determinar o equilíbrio entre os pontos fortes e fracos de um modelo. Se o modelo presumisse que 100% dos leads não seriam convertidos, F1 seria 0.
Durante o treinamento de um experimento de classificação binária, os gráficos a seguir são gerados automaticamente para fornecer uma análise rápida das pontuações de modelo:
Matriz de confusão: um gráfico resumindo a acurácia dos resultados da previsão em um modelo de classificação. Consulte Matriz de confusão.
Curva ROC: um gráfico que mostra o quanto um modelo de aprendizado de máquina é bom em prever a classe positiva quando o resultado real é positivo.Consulte Curva AUC e ROC.
Matriz de confusão
A maioria das métricas para problemas de classificação binária é gerada por diferentes cálculos dos valores na confusion matrix. A matriz de confusão é uma das visualizações mostradas na guia Modelos. Ele mostra quantos valores verdadeiros e falsos reais foram previstos corretamente, com um total para cada classe. Os valores exibidos no gráfico são baseados nos dados de validação automática usados para validar o desempenho do modelo após o treinamento. Cada registro no conjunto de dados é classificado em um dos quadrantes:
-
Verdadeiro positivo (TP) são valores verdadeiros reais que foram corretamente previstos como verdadeiros.
-
Falso positivo (FP) são valores falsos reais que foram previstos incorretamente como verdadeiros.
-
Falsos negativos (FN) são valores verdadeiros reais que foram previstos incorretamente como falsos.
-
Verdadeiro negativo (TN) são valores falsos reais que foram previstos corretamente como falsos.
Abaixo dos números em cada quadrante, você também pode ver os valores percentuais para as métricas recall (TP), fallout (FP), miss rate (FN) e specificity (TN). Passe o mouse sobre um valor para ver uma dica de ferramenta com a métrica.
Qualquer caso realista mostrará falsos positivos e falsos negativos na confusion matrix. Previsões perfeitas nos dados de treinamento indicam que o modelo memorizou as respostas e terá um desempenho ruim no mundo real. Você deve garantir que capturou verdadeiros positivos e negativos suficientes.
F1
A pontuação F1 é uma métrica que tenta considerar a exatidão quando as classes estão desequilibradas, concentrando-se na exatidão das previsões positivas e registros positivos reais. Pode ser visto como a exatidão com que o modelo captura os resultados que importam. A métrica está tentando equilibrar o recall e a exatidão para encontrar idealmente algo que esteja no meio entre os dois. Observe que quanto mais desequilibrado for um conjunto de dados, menor será a pontuação F1, mesmo com a mesma exatidão geral.
Se o valor F1 for alto, todas as outras métricas de pontuação serão altas. Se o valor estiver baixo, é sinal de que você precisa fazer uma análise mais aprofundada. No entanto, se a pontuação for muito alta ou se a pontuação de validação for muito menor do que a pontuação de validação cruzada, pode ser um sinal de vazamento de dados.
F1 é calculado como: 2 x ((Precision x Recall) / (Precision + Recall))
Recuperação
Recall é a taxa de verdadeiros positivos. Ele mede a frequência com que o modelo previu com exatidão a verdade quando algo realmente era verdade. Ou seja, com que exatidão o modelo encontrou todos os casos verdadeiros reais dentro de um conjunto de dados? Recall é a medida da boa lembrança da classe positiva. É calculado como: TP / (TP + FN)
Precisão
Precision também é conhecida como o valor preditivo positivo. Ela mede qual é a probabilidade de o modelo estar correto quando fez uma previsão de que algo é verdadeiro. É calculado como: TP / (TP + FP)
Troca entre recall e precision
A recordação pode ser descrita como a largura da rede que o modelo lança: ele capturou todas as verdades, mesmo que tenha feito algumas previsões falso-positivas? Ele capturou o máximo possível de verdades? Precision é um pouco do inverso de recall. Aqui, queremos ter certeza de que, quando o modelo prevê o verdadeiro, ele é muito preciso em prever o verdadeiro. No entanto, com alta precision, vamos acabar com mais falsos negativos onde o modelo prevê falso mesmo quando algo é verdadeiro.
Há uma compensação entre não perder nenhum resultado verdadeiro e ter certeza de que nenhum dos resultados previstos como verdadeiros era realmente falso. Se uma tendência para maior precision ou maior recall é aconselhável, depende do seu caso de uso de negócios. Por exemplo, na previsão do diagnóstico de doenças, você deseja garantir que não perca pacientes que realmente tiveram a doença, ou seja, falsos negativos.
-
Se o "custo" de um falso negativo for alto, um modelo tendencioso para alto recall pode ser justificado.
-
Se o "custo" de um falso positivo for alto, um modelo tendencioso para alta precision pode ser justificado.
Exatidão
A exatidão mede com que frequência o modelo fez uma previsão correta em média. É calculado como: (TP + TN) / (todas as previsões)
Especificidade
Specificity é a taxa de negativo real. Ela mede a frequência com que o modelo previu com exatidão o falso quando algo realmente era falso. É calculado como: TN / (FP + TN)
MCC
O Coeficiente de Correlação de Matthews (MCC) varia de -1 a 1, em que 1 significa que o modelo previu cada amostra corretamente. O MCC é calculado como: ((TP x TN) - (FP x FN)) / [(TP + FP) x (FN + TN) x (FP + TN) x (TP + FN)]^(1/2)
Taxa de falha
Miss rate é a taxa de falso negativo. É a razão entre o número de falsos negativos e o número total de eventos positivos reais. É calculado como: FN / (TP + FN)
Precipitação
Fallout é a taxa de falso positivo. É a razão entre o número de falsos positivos e o número total de eventos negativos reais. É calculado como: FP / (FP + TN)
NPV
O valor preditivo negativo (VPL) mede a probabilidade de o modelo estar correto quando fez uma previsão de que algo é falso. É calculado como: TN / (FN + TN)
Log loss
Log loss é uma medida comum de exatidão na regressão logística. Um valor menor de log loss significa melhores previsões - um modelo perfeito teria um log loss de 0.
Curva AUC e ROC
Área sob a curva (AUC) é uma métrica de exatidão mais complicada que pode ajudar você a entender o quão determinístico é um modelo. Descreve o quão bom é o modelo em prever a classe positiva quando o resultado real é positivo.
AUC é definida como a área sob uma curva ROC. A curva ROC plota a taxa de falsos positivos (eixo x) versus a taxa de verdadeiros positivos (eixo y) para vários valores de threshold diferentes entre 0,0 e 1,0. Em outras palavras, ele plota a taxa de falsos alarmes versus a taxa de acertos. Essa curva é útil para entender se a separação entre as classes é possível, indicando se os dados são bons o suficiente para distinguir com exatidão entre os resultados previstos.
A taxa de verdadeiros positivos é calculada como: TP / (TP + FN)
-
Quanto mais próxima a taxa de verdadeiros positivos estiver de 1,0 - a área máxima possível sob a curva - mais determinístico será o modelo.
-
Quanto mais próxima a taxa de verdadeiros positivos estiver de 0,5, menos determinístico será o modelo.
A imagem abaixo mostra uma boa curva ROC. É bom porque a curva deve ser o mais próximo possível de 1, o que dá uma AUC alta. A linha pontilhada é uma chance aleatória, 50:50. Se a AUC for baixa, a curva é considerada ruim.
Limite
O threshold é a probabilidade de que uma previsão seja verdadeira. Representa o trade-off entre falsos positivos e falsos negativos. O valor de threshold é determinado por algoritmo e provavelmente haverá um valor de threshold diferente para cada algoritmo em seu modelo.
Ajuste de threshold
O ajuste de threshold é uma maneira eficaz de garantir que o valor de threshold correto seja selecionado para otimizar as pontuações F1 dos modelos de classificação binária. O AutoML calcula a precision e o recall para centenas de diferentes thresholds possíveis de 0 a 1. O threshold que atinge a pontuação F1 mais alta é escolhido.
Selecionar o threshold — em vez de confiar no threshold padrão de 0,5 — produz previsões mais robustas para conjuntos de dados que têm um desequilíbrio no número de casos positivos e negativos.
No gráfico, o threshold é definido como 0,5. Nesse caso, os registros que eram realmente verdadeiros e preditos com menos de 0,5 receberam o rótulo de predito de falso (falso negativo).
Ao alterar o threshold que decide se um registro é previsto como verdadeiro ou falso, podemos obter uma tendência para maior recall ou maior precision.