Otimização de modelo inteligente
A otimização inteligente de modelos fornece refinamento automático dos modelos que você treina em um experimento. Com a otimização inteligente de modelos, o processo de iteração da seleção de recursos e aplicação de transformações avançadas é feito para você. Com um conjunto de dados de treinamento bem preparado que inclui todos os recursos relevantes, você pode esperar uma otimização inteligente de modelos para treinar modelos prontos para implementação em uma única versão.
O que é otimização de modelo inteligente?
A otimização inteligente de modelos automatiza muitos aspectos do processo de refinamento do modelo. Com a otimização inteligente de modelos, é possível treinar rapidamente modelos de alta qualidade sem refinar manualmente a seleção de recursos ou ajustar os dados de entrada.
Usando a otimização de modelo inteligente
A otimização de modelo inteligente é ativada por padrão em novos experimentos de ML. Você pode ativá-la ou desativá-la para cada versão do experimento que executar.
Após executar uma versão de experimento com a otimização inteligente ativada, os resultados da otimização podem ser visualizados no Resumo do treinamento do modelo. Este resumo é exibido na guia Modelos em Ideias do modelo. Passe o cursor sobre os termos sublinhados para visualizar uma dica de ferramenta com uma descrição detalhada.
O Resumo do treinamento do modelo é diferente para cada modelo treinado em uma versão de experimento.
Como a otimização de modelo inteligente funciona
Com a otimização de modelo inteligente:
Mais modelos são treinados do que com otimização manual. A seleção de recursos é tratada no nível do modelo. Isso significa que, diferentemente da otimização manual, cada modelo em uma versão pode ter uma seleção de recursos diferente.
Além do pré-processamento automático aplicado a todos os modelos por padrão, os dados de treinamento são processados com várias transformações avançadas. Essas transformações ajudam a garantir que seus dados estejam em um formato ideal para algoritmos de aprendizado de máquina.
Para garantia de qualidade, um modelo de linha de base — um modelo treinado em todo o conjunto de recursos que você configurou para a versão — ainda é treinado. Isso ajuda a verificar se a otimização inteligente está, de fato, melhorando as pontuações do modelo.
Para conjuntos de dados de treinamento maiores, os modelos são treinados em uma variedade de taxas de amostragem. Isso ajuda a acelerar o processo de treinamento. Para obter mais informações, consulte Amostragem de dados de treinamento.
Amostragem de dados de treinamento
Quando você está treinando modelos com uma grande quantidade de dados, o AutoML usa amostragem para treinar modelos em uma variedade de subconjuntos (taxas de amostragem) do conjunto de dados original. A amostragem é usada para acelerar o processo de treinamento. No início do treinamento, os modelos são treinados em uma pequena taxa de amostragem. Conforme o treinamento continua, os modelos são gradualmente treinados em porções maiores dos dados. Finalmente, os modelos são treinados em todo o conjunto de dados (uma taxa de amostragem de 100%).
Durante a análise dos dados de treinamento do modelo, os modelos treinados com menos de 100% do conjunto de dados de treinamento ficam ocultos de algumas visualizações.
Processamento aplicado durante a otimização inteligente de modelos
O Resumo do treinamento do modelo mostra como os dados de treinamento foram processados pela otimização inteligente de modelos. As seções a seguir contêm mais detalhes sobre cada um dos itens que você vê no log.
Seleção de recursos
A otimização inteligente de modelos ajuda a refinar seus modelos, soltando recursos que podem reduzir o desempenho da previsão. Durante a otimização do modelo inteligente, um recurso pode ser descartado por qualquer um dos seguintes motivos:
Vazamento de alvo: suspeita-se que o recurso seja afetado por vazamento de alvo. Os recursos afetados pelo vazamento de destino incluem informações sobre a coluna de alvo que você está tentando prever. Por exemplo, o recurso é derivado diretamente do alvo ou inclui informações que não seriam conhecidas no momento da previsão. Os recursos que causam vazamento de alvo podem dar a você uma falsa sensação de segurança sobre o desempenho do modelo. Em previsões do mundo real, elas fazem com que o modelo tenha um desempenho muito ruim.
Baixa importância de permutação: o recurso não tem muita, ou nenhuma, influência nas previsões do modelo. A remoção desses recursos melhora o desempenho do modelo reduzindo o ruído estatístico.
Altamente correlacionado: o recurso está altamente correlacionado com um ou mais outros recursos no experimento. Recursos que são muito correlacionados não são adequados para uso em modelos de treinamento.
Na guia Dados dentro do experimento, você pode visualizar ideias sobre recursos descartados para cada modelo. As Ideias também se referem a recursos que foram descartados fora do processo de otimização de modelo inteligente. Para obter mais informações sobre cada ideia, consulte Interpretando ideias do conjunto de dados.
Transformações de recursos
A otimização inteligente de modelos aplica uma série de transformações técnicas no nível do recurso. Essas transformações processam seus dados de treinamento para que possam ser usados de forma mais eficaz para criar um modelo de aprendizado de máquina confiável. As transformações de recursos são aplicadas automaticamente conforme necessário. No Resumo do treinamento do modelo, você é notificado quando as transformações de recursos são aplicadas e quais recursos são afetados.
Transformação de energia
Dados de recursos geralmente contêm distribuições com algum grau de assimetria e desvio de uma distribuição normal. Antes de treinar um modelo, pode ser útil aplicar algum processamento aos dados para normalizar distribuições de valor se elas parecerem excessivamente distorcidas. Esse processamento ajuda a reduzir a tendência e a identificar discrepâncias.
Com a otimização inteligente de modelos, recursos numéricos que ultrapassam um limite de distorção específico são transformados para ter uma distribuição mais normal (ou semelhante à normal) usando transformações de potência. Especificamente, é usada a transformação de potência Yeo-Johnson.
Compartimentação de recursos numéricos
Alguns recursos numéricos podem conter padrões e distribuições que não são facilmente manipulados por algoritmos de aprendizado de máquina. Com a otimização inteligente de modelos, isso é resolvido, em parte, organizando os dados de recursos numéricos específicos em diferentes compartimentos, dependendo de seus intervalos de valores. A compartimentação é realizada para que os recursos possam ser transformados em recursos categóricos.
Após a conclusão da compartimentação, os novos recursos categóricos são one-hot encoded e usados em treinamento. Para obter mais informações sobre a codificação one-hot encoded, consulte Codificação categórica.
Detecção e tratamento de anomalias
Anomalias são valores de dados que aparecem fora do intervalo em que você esperaria razoavelmente que eles caíssem. Não é incomum que haja algumas discrepâncias em seus dados de treinamento. Algumas anomalias podem até ser desejadas como uma forma de refletir possibilidades do mundo real. Em outros casos, as anomalias podem interferir na capacidade de treinar um modelo confiável.
Com a otimização inteligente de modelos, o AutoML identifica possíveis anomalias. As linhas nas quais os valores discrepantes aparecem são então manipuladas com um sistema de ponderação alimentado por algoritmo. Se um valor for fortemente suspeito de ser uma anomalia, o sistema de ponderação reduz a influência da linha correspondente nos dados de treinamento no modelo.
Após o treinamento do seu modelo, você é notificado sobre a porcentagem de linhas do conjunto de dados de treinamento original que foram manipuladas como dados anômalos.
Para obter mais informações, consulte Detecção e tratamento de anomalias.
Desativando a otimização inteligente
Com a otimização inteligente desativada, você está otimizando o treinamento manualmente. A otimização manual pode ser útil se você precisar de mais controle sobre o processo de treinamento. Em particular, você pode querer executar uma versão com otimização de modelo inteligente e, em seguida, desativar a configuração se precisar fazer um pequeno conjunto de ajustes manuais.
Faça o seguinte:
Em um experimento, clique em Exibir configuração.
O painel de configuração do experimento é aberto.
Se você já executou pelo menos uma versão do experimento, clique em Nova versão.
No painel, expanda Otimização do modelo.
Alterne de Inteligente para Manual.
Considerações
Ao trabalhar com otimização de modelo inteligente, considere o seguinte:
Usar a otimização de modelo inteligente não garante que seu treinamento produzirá modelos de alta qualidade. Os estágios de preparação do conjunto de dados e configuração do experimento também são essenciais para produzir modelos confiáveis. Se você não tiver um conjunto de dados bem preparado ou se sua configuração estiver sem recursos principais, seus modelos não terão garantia de bom desempenho em casos de uso de produção. Para obter mais informações sobre esses estágios, consulte:
Quando a otimização de modelo inteligente é ativada para uma versão, cada modelo dessa versão terá um conjunto separado de recursos incluídos. Por outro lado, todos os modelos de uma versão treinada com otimização manual terão o mesmo conjunto de recursos incluídos.
A otimização inteligente de modelos usa apenas os recursos e algoritmos que você incluiu na configuração da versão.
Otimização de hiperparâmetros
A otimização de hiperparâmetros não está disponível quando a otimização de modelo inteligente está ativada. Para ativar a otimização de hiperparâmetros, você precisa definir a otimização do modelo como Manual.
Para obter mais informações, consulte Otimização de hiperparâmetros.
Exemplo
Para um exemplo demonstrando os benefícios da otimização inteligente de modelos, consulte Exemplo – Treinamento de modelos com aprendizado de máquina automatizado.