Revisando e refinando versões de modelos
Depois que a primeira versão do treinamento do modelo for concluída, analise as métricas do modelo resultantes e configure novas versões do experimento até obter os resultados necessários.
Ao executar a versão do experimento, você será levado à visualização do modelo, onde poderá analisar as métricas do modelo resultante. Você pode alternar para visualização de esquema ou dados a qualquer momento. Quando precisar retornar à visualização do modelo, clique no ícone da visualização do modelo.
Você saberá que a primeira versão do treinamento foi concluída quando todas as métricas forem preenchidas na tabela Métricas do modelo e um ícone de troféu aparecer ao lado do modelo principal.
Analisando o modelo
Na visualização do modelo, podemos ver que o algoritmo principal é pontuado com um ícone de troféu . Isso significa que é o modelo de melhor desempenho com base na pontuação de F1.
Faça o seguinte:
-
No canto superior direito da tabela, clique no botão seletor de colunas. Aqui, você pode visualizar todas as métricas disponíveis para o nosso problema e adicionar ou remover métricas conforme necessário. Selecione as métricas que deseja mostrar na tabela ou deixe as métricas padrão.
-
Na tabela Métricas do modelo, clique no menu suspenso do filtro Algoritmo e selecione o algoritmo correspondente ao modelo de melhor desempenho.
-
Ative Mostrar métricas de dados de treinamento.
Agora você pode ver as métricas do treinamento de validação cruzada e compará-las com as métricas de retenção. Para cada coluna de métrica de retenção, há uma coluna "treinamento" correspondente para a métrica equivalente dos dados de treinamento.
-
Clique em Limpar filtros e volte a desativar o botão de alternância Mostrar métricas de dados de treinamento.
-
Classifique os modelos por desempenho, do maior para o menor, clicando no cabeçalho da coluna F1. Você pode optar por excluir algoritmos de baixo desempenho ou focar apenas no melhor para obter resultados mais rápidos na próxima iteração do treinamento. Abordaremos isso ao configurar a v3 em uma seção posterior.
-
Role para baixo abaixo da tabela de métricas para ver as visualizações do modelo selecionado.
-
Clique em ou em Visualizar configuração para expandir o painel Configuração do experimento.
-
Clique em Nova versão para criar um rascunho da próxima versão do experimento.
-
No gráfico Importância da permutação, bem como na lista Recursos no painel Configuração do experimento, observe que essa primeira iteração do modelo depende muito do recurso DaysSinceLastService, com todos os outros recursos quase não tendo importância em comparação a ele.
Essa disparidade e o desempenho extremamente alto dos modelos devem ser vistos como um sinal de que algo está errado. Nesse caso, não havia uma lógica definida durante a coleta de dados para interromper a contagem do número de dias desde o último tíquete de atendimento de um cliente para clientes que cancelaram sua assinatura. Como resultado, o modelo aprendeu a associar vários dias desde o último tíquete de serviço com um valor de yes no campo Churned.
Este é um exemplo de vazamento de dados, pois em um cenário do mundo real, o modelo só teria acesso às informações até que a previsão fosse feita, e o número de dias contidos neste campo foi coletado após esse ponto de medição. Para obter mais informações sobre vazamento de dados, consulte Vazamento de dados.
Precisamos remover o recurso "vazado" DaysSinceLastService da configuração do experimento, pois ele está distorcendo os modelos resultantes. Observe que, em um caso de uso real, é necessário investigar minuciosamente a qualidade e a lógica dos dados antes da criação do modelo para garantir que o modelo resultante seja treinado adequadamente.
Abordaremos esse problema na próxima seção, ao configurar a v2.
Configurando e executando a versão 2
Como a maior parte do treinamento do modelo mudará após a correção desse problema de vazamento de dados, vamos configurar uma nova versão antes de concluir qualquer outro aprimoramento.
Faça o seguinte:
-
Em uma etapa anterior, você já tem o painel Configuração do experimento aberto para configurar a v2.
-
Em Recursos no painel de configuração do experimento, desmarque a caixa de seleção DaysSinceLastService.
-
Clique em Executar v2.
Configurando e executando a versão 3
Após a execução da segunda versão do experimento, clique na caixa de seleção ao lado do modelo v2 de melhor desempenho na tabela de métricas (marcado com um ícone de troféu ). Isso atualiza a página com as métricas desse modelo.
Acima da tabela Métricas do modelo, clique no menu suspenso de filtro de Versão e selecione 2. Isso permite que você se concentre apenas nas métricas do modelo v2.
Você verá que a lista de recursos importantes mudou substancialmente desde o tratamento do vazamento de dados. O modelo de melhor desempenho também pode usar um algoritmo diferente do modelo de melhor desempenho para v1.
Faça o seguinte:
-
Veja o gráfico de Permutation importance. Pode haver recursos que fornecem muito menos influência em nosso modelo do que outros recursos. Eles têm pouco valor para este caso de uso e podem ser vistos como ruído estatístico. Você pode tentar remover alguns desses recursos para ver se isso melhora as pontuações do modelo.
-
Clique em ou em Visualizar configuração para expandir o painel Configuração do experimento.
-
Clique em Nova versão para criar um rascunho da próxima versão do experimento.
-
No painel Configuração do experimento, em Recursos, desmarque as caixas de seleção de um ou mais recursos que exercem pouca ou nenhuma influência no modelo.
-
Veja a tabela Métricas do modelo. Você pode optar por excluir alguns algoritmos de baixo desempenho ou focar apenas nos melhores para obter resultados mais rápidos na próxima iteração do treinamento.
-
No painel Configuração do experimento, em Algoritmos, desmarque opcionalmente as caixas de seleção de alguns dos algoritmos de baixo desempenho.
-
Clique em Executar v3.
Comparando versões experimentais
Na tabela Métricas do modelo, clique em Limpar filtros.
Após a execução da v3, clique na caixa de seleção ao lado do modelo v3 de melhor desempenho para visualizar suas métricas.
Clique em Mais filtros de modelos e selecione o filtro Melhores desempenhos. Você pode ver as métricas dos melhores desempenhos de cada iteração do experimento.
A primeira versão do treinamento resultou nas pontuações mais altas, mas essas métricas eram preditores de desempenho altamente exagerados e irrealistas causados pelo problema de vazamento de dados. Na v3, a pontuação F1 do modelo de melhor desempenho aumentou em relação ao modelo v2 de alto desempenho.
Em um cenário real, é importante repetir essas etapas de refinamento quantas vezes forem necessárias antes de implementar seu modelo, para garantir que você tenha o melhor modelo possível para seu caso de uso específico.
Neste tutorial, acesse para a próxima seção sobre como implementar seu modelo.