Selecionando o melhor modelo para você
Ao analisar os resultados do seu experimento, é importante procurar modelos com características específicas que sejam importantes para o seu caso de uso. Por exemplo, além de previsões consistentemente precisas, você também pode precisar de modelos que forneçam previsões rapidamente. Na guia Modelos do seu experimento, os modelos são recomendados para você com base em vários ângulos de análise.
Analisando os modelos principais para um experimento
Com base em seus filtros, são apresentados modelos recomendados para ajudá-lo a considerar várias perspectivas de qualidade diferentes. Um único modelo pode ser considerado um modelo principal de mais de uma maneira. Os tipos de modelo principal são:
Visualizando os modelos principais na interface do usuário
Para obter informações sobre como encontrar e explorar os modelos principais para seu experimento, consulte Analisando a tabela de métricas do modelo.
Melhor modelo
Com base em seus filtros, o melhor modelo é selecionado automaticamente para análise. O melhor modelo é destacado com um ícone .
No Qlik Predict, o melhor modelo é determinado a partir de um cálculo balanceado que leva em consideração métricas de precisão e velocidade de previsão.
Para determinar o melhor modelo, o processo a seguir é executado automaticamente:
-
Selecione o modelo com a pontuação mais alta para a métrica de desempenho preditivo determinada pelo tipo de modelo. As métricas usadas são:
-
Classificação binária: F1
-
Classificação multiclasse: F1 Macro
-
Regressão: R2
-
Séries temporais: MASE (ou MAE se o MASE não estiver disponível)
-
-
Usando as pontuações de desempenho da etapa 1, selecione todos os modelos que estejam dentro de cinco por cento da pontuação do modelo de maior pontuação.
-
De todos os modelos selecionados, selecione o modelo com a velocidade de previsão mais rápida (veja Velocidade de previsão). Esse é o melhor modelo.
Mais exato
É importante que seu modelo consiga gerar previsões com alta acurácia de forma consistente. Embora F1, F1 Macro e R2 forneçam uma pontuação balanceada que reflete de forma abrangente a acurácia do modelo, você também pode ter interesse nas métricas de precisão e acurácia bruta dos seus modelos.
O modelo mais preciso é destacado com um ícone . Para determinar o modelo mais preciso, o seguinte processo é executado automaticamente:
-
Selecione o modelo com a pontuação mais alta para a métrica de desempenho preditivo determinada pelo tipo de modelo. As métricas usadas são:
-
Usando as pontuações de desempenho da etapa 1, selecione todos os modelos que estejam dentro de dez por cento da pontuação do modelo de maior pontuação.
-
Um dos dois caminhos a seguir é usado, dependendo do tipo de modelo:
-
Classificação binária:
-
Se o conjunto de dados de treinamento não estiver balanceado, selecione o modelo com a maior pontuação de acurácia. Esse é o modelo mais preciso. Para obter informações sobre a métrica específica usada, consulte Exatidão.
-
Se o conjunto de dados de treinamento não estiver balanceado, selecione o modelo com a maior pontuação de precisão. Para obter informações sobre a métrica específica usada, consulte Precisão.
-
-
Classificação multiclasse ou regressão:
-
Séries temporais: selecione o modelo com a melhor (menor) pontuação MAE.
-
Modelo mais rápido
Ao escolher um modelo, você pode querer valorizar a rapidez com que o modelo pode fornecer previsões. O modelo mais rápido é destacado com um ícone .
A velocidade de previsão determina qual modelo é o mais rápido. No entanto, a acurácia preditiva dos modelos ainda é considerada. Isso ocorre porque um modelo pode ser capaz de gerar previsões rapidamente, mas também deve ser capaz de prever com acurácia razoável.
Para determinar o modelo mais rápido, o processo a seguir é executado automaticamente:
-
Selecione o modelo com a pontuação mais alta para a métrica de desempenho preditivo determinada pelo tipo de modelo. As métricas usadas são:
-
Um dos caminhos a seguir é usado, dependendo do tipo de modelo:
-
Classificação binária:
-
Se o conjunto de dados de treinamento for balanceado, selecione todos os modelos que tenham uma pontuação de acurácia dentro de dez por cento da pontuação de acurácia do modelo selecionado na etapa 1. Para obter informações sobre a métrica específica usada, consulte Exatidão.
-
Se o conjunto de dados de treinamento não for balanceado, selecione todos os modelos que estejam dentro de dez por cento da pontuação do modelo de pontuação mais alta da etapa 1. As métricas da etapa 1 são usadas.
-
-
Classificação multiclasse ou regressão:
-
Séries temporais: selecione todos os modelos dentro de dez por cento da pontuação MAE do modelo da etapa 1.
-
-
De todos os modelos selecionados, selecione o modelo com a velocidade de previsão mais rápida (veja Velocidade de previsão). Esse modelo é o mais rápido.
Velocidade de previsão
Velocidade de previsão é uma métrica de modelo que se aplica a todos os tipos de modelo: classificação binária, classificação multiclasse, regressão e série temporal. A velocidade de previsão mede a rapidez com que um modelo de aprendizado de máquina pode gerar previsões.
No Qlik Predict, a velocidade de previsão é calculada usando o tempo combinado de computação do recurso e o tempo de previsão do conjunto de dados de teste. Ela é exibida em linhas por segundo.
A velocidade de previsão pode ser analisada na tabela Métricas do modelo após a execução da versão do experimento. Você também pode visualizar os dados de velocidade de previsão ao analisar modelos com análise incorporada. Para obter mais informações, consulte:
Considerações
A velocidade de previsão medida baseia-se no tamanho do conjunto de dados de treinamento, e não nos dados nos quais as previsões são feitas. Após implementar um modelo, você poderá notar diferenças entre a rapidez com que as previsões são criadas se o tamanho dos dados de treinamento e de previsão for muito diferente, ou ao criar previsões em tempo real em uma ou poucas linhas de dados.
Sobreajuste
Sobreajuste ocorre quando o comportamento preditivo de um modelo é mapeado de forma muito próxima ao conjunto de dados de treinamento. Quando um modelo é sobreajustado, é provável que ele tenha memorizado apenas os padrões do conjunto de dados de treinamento e não consiga prever com precisão os valores futuros.
O sobreajuste pode ter várias causas, inclusive problemas relacionados a algoritmos de treinamento e conjuntos de dados de treinamento excessivamente curtos ou complexos.
No Qlik Predict, o sobreajuste é identificado automaticamente por meio de uma análise dos resultados do treinamento de teste para todas as métricas usadas no processo de seleção do modelo principal, exceto a velocidade de previsão:
-
Modelos de classificação binária: F1, Exatidão (dados balanceados), Precisão (dados não balanceados)
Se houver uma diferença superior a dez por cento entre qualquer uma dessas métricas ao comparar os resultados do teste e do treinamento, há suspeita de que o modelo esteja sobreajustado.
Se houver suspeita de que um modelo está sobreajustado, ele nunca será apresentado como um modelo recomendado, mesmo que tenha uma boa pontuação. O modelo é marcado com um aviso na tabela Métricas de modelo.
Se houver suspeita de que todos os modelos mostrados em seus filtros estejam sobreajustados, não serão fornecidas recomendações de modelos.
Como lidar com o sobreajuste
Para lidar com o sobreajuste:
-
Não implemente modelos suspeitos de sobreajuste.
-
Se suspeitar de um problema com o conjunto de dados de treinamento, consulte Preparando seu conjunto de dados para o treinamento para saber como preparar os dados de treinamento para evitar o sobreajuste.