Ir para conteúdo principal Pular para conteúdo complementar

Otimização inteligente de modelos

A otimização inteligente de modelos fornece refinamento automático dos modelos que você treina em um experimento. Com a otimização inteligente de modelos, os processos de iteração da seleção de recursos e aplicação de transformações avançadas são feitos para você. Com um conjunto de dados de treinamento bem preparado que inclui todos os recursos relevantes, você pode esperar uma otimização inteligente de modelos para treinar modelos prontos para implementação em uma única versão.

O que é otimização inteligente de modelos?

A otimização inteligente do modelo automatiza muitos aspectos do processo de refinamento do modelo. Com a otimização inteligente de modelos, é possível treinar rapidamente modelos de alta qualidade sem refinar manualmente a seleção de recursos ou ajustar os dados de entrada.

Usando a otimização inteligente de modelos

A otimização inteligente de modelos é ativada por padrão em novos experimentos de ML com os seguintes tipos:

  • Classificação binária

  • Classificação multiclasse

  • Regressão

Nota informativa

A otimização inteligente de modelos não é aplicável a experimentos de séries temporais.

Você pode ativar ou desativar a otimização inteligente de modelos para cada versão do experimento que executar.

Após executar uma versão de experimento com a otimização inteligente ativada, os resultados da otimização podem ser visualizados no Resumo do treinamento do modelo. Este resumo é exibido na guia Modelos em Ideias do modelo. Passe o cursor sobre os termos sublinhados para visualizar uma dica de ferramenta com uma descrição detalhada.

O Resumo do treinamento do modelo é diferente para cada modelo treinado em uma versão de experimento.

Como a otimização inteligente de modelos funciona

Com a otimização inteligente de modelos:

  • Mais modelos são treinados do que com otimização manual. A seleção de recursos é tratada no nível do modelo. Isso significa que, diferentemente da otimização manual, cada modelo em uma versão pode ter uma seleção de recursos diferente.

  • Além do pré-processamento automático aplicado a todos os modelos por padrão, os dados de treinamento são processados com várias transformações avançadas. Essas transformações ajudam a garantir que seus dados estejam em um formato ideal para algoritmos de aprendizado de máquina.

  • Para garantia de qualidade, um modelo de linha de base — um modelo treinado em todo o conjunto de recursos que você configurou para a versão — ainda é treinado. Isso ajuda a verificar se a otimização inteligente está, de fato, melhorando as pontuações do modelo.

  • Para conjuntos de dados de treinamento maiores, os modelos são treinados em uma variedade de taxas de amostragem. Isso ajuda a acelerar o processo de treinamento. Para obter mais informações, consulte Amostragem de dados de treinamento.

Amostragem de dados de treinamento

Quando você está treinando modelos com uma grande quantidade de dados, o Qlik Predict usa amostragem para treinar modelos em uma variedade de subconjuntos (taxas de amostragem) do conjunto de dados original. A amostragem é usada para acelerar o processo de treinamento. No início do treinamento, os modelos são treinados em uma pequena taxa de amostragem. Conforme o treinamento continua, os modelos são gradualmente treinados em porções maiores dos dados. Finalmente, os modelos são treinados em todo o conjunto de dados (uma taxa de amostragem de 100%).

Durante a análise dos dados de treinamento do modelo, os modelos treinados com menos de 100% do conjunto de dados de treinamento ficam ocultos de algumas visualizações.

Processamento aplicado durante a otimização inteligente de modelos

O Resumo do treinamento do modelo mostra como os dados de treinamento foram processados pela otimização inteligente de modelos. As seções a seguir contêm mais detalhes sobre cada um dos itens que você vê no log.

O processamento aplicado pode variar de acordo com o modelo.

Gráfico do Resumo do treinamento do modelo para um modelo, exibido na guia Modelos

Gráfico do resumo do treinamento para um modelo treinado com otimização inteligente.

Seleção de recursos

A otimização inteligente de modelos ajuda a refinar seus modelos, soltando recursos que podem reduzir o desempenho da previsão. Durante a otimização do modelo inteligente, um recurso pode ser descartado por qualquer um dos seguintes motivos:

  • Vazamento de alvo: suspeita-se que o recurso seja afetado por vazamento de alvo. Os recursos afetados pelo vazamento de destino incluem informações sobre a coluna de alvo que você está tentando prever. Por exemplo, o recurso é derivado diretamente do alvo ou inclui informações que não seriam conhecidas no momento da previsão. Os recursos que causam vazamento de alvo podem dar a você uma falsa sensação de segurança sobre o desempenho do modelo. Em previsões do mundo real, elas fazem com que o modelo tenha um desempenho muito ruim.

  • Baixa importância de permutação: o recurso não tem muita, ou nenhuma, influência nas previsões do modelo. A remoção desses recursos melhora o desempenho do modelo reduzindo o ruído estatístico.

  • Altamente correlacionado: o recurso está altamente correlacionado com um ou mais outros recursos no experimento. Recursos que são muito correlacionados não são adequados para uso em modelos de treinamento.

Na guia Dados dentro do experimento, você pode visualizar ideias sobre recursos descartados para cada modelo. As Ideias também se referem a recursos que foram descartados fora do processo de otimização inteligente de modelos. Para obter mais informações sobre cada ideia, consulte Interpretando ideias do conjunto de dados.

Transformações de recursos

A otimização inteligente de modelos aplica uma série de transformações técnicas no nível do recurso. Essas transformações processam seus dados de treinamento para que possam ser usados de forma mais eficaz para criar um modelo de aprendizado de máquina confiável. As transformações de recursos são aplicadas automaticamente conforme necessário. No Resumo do treinamento do modelo, você é notificado quando as transformações de recursos são aplicadas e quais recursos são afetados.

Transformação de energia

Dados de recursos geralmente contêm distribuições com algum grau de assimetria e desvio de uma distribuição normal. Antes de treinar um modelo, pode ser útil aplicar algum processamento aos dados para normalizar distribuições de valor se elas parecerem excessivamente distorcidas. Esse processamento ajuda a reduzir a tendência e a identificar discrepâncias.

Com a otimização inteligente de modelos, recursos numéricos que ultrapassam um limite de distorção específico são transformados para ter uma distribuição mais normal (ou semelhante à normal) usando transformações de potência. Especificamente, é usada a transformação de potência Yeo-Johnson.

Compartimentação de recursos numéricos

Alguns recursos numéricos podem conter padrões e distribuições que não são facilmente manipulados por algoritmos de aprendizado de máquina. Com a otimização inteligente de modelos, isso é resolvido, em parte, organizando os dados de recursos numéricos específicos em diferentes compartimentos, dependendo de seus intervalos de valores. A compartimentação é realizada para que os recursos possam ser transformados em recursos categóricos.

Após a conclusão da compartimentação, os novos recursos categóricos são one-hot encoded e usados em treinamento. Para obter mais informações sobre a codificação one-hot encoded, consulte Codificação categórica.

Ponderação e amostragem no nível de linha

Detecção e tratamento de anomalias

Anomalias são valores de dados que aparecem fora do intervalo em que você esperaria razoavelmente que eles caíssem. Não é incomum que haja algumas discrepâncias em seus dados de treinamento. Algumas anomalias podem até ser desejadas como uma forma de refletir possibilidades do mundo real. Em outros casos, as anomalias podem interferir na capacidade de treinar um modelo confiável.

Com a otimização inteligente de modelos, o Qlik Predict identifica possíveis anomalias. As linhas nas quais os valores discrepantes aparecem são então manipuladas com um sistema de ponderação alimentado por algoritmo. Se um valor for fortemente suspeito de ser uma anomalia, o sistema de ponderação reduz a influência da linha correspondente nos dados de treinamento no modelo.

Após o treinamento do seu modelo, você é notificado sobre a porcentagem de linhas do conjunto de dados de treinamento original que foram manipuladas como dados anômalos.

Para obter mais informações, consulte Detecção e tratamento de anomalias.

Balanceamento de classe

Em seu conjunto de dados de treinamento, é possível que haja mais ocorrências de um determinado valor (classe) do que de outros. Esse fenômeno é conhecido como desequilíbrio de classe. Quando o desequilíbrio de classe está presente nos dados, os modelos resultantes aprendem mais sobre a classe majoritária do que sobre a classe minoritária, afetando a acurácia da previsão.

Com a otimização inteligente de modelos, o Qlik Predict realiza o balanceamento automático de classes para modelos de classificação binária. O desequilíbrio de classe é detectado pela comparação da distribuição de valores para as duas classes na coluna de destino. Especificamente, ele é realizado quando a proporção entre as duas classes é:

  • 95% (ou mais) das linhas contêm uma classe

  • 5% (ou menos) das linhas contêm a outra classe

Durante o balanceamento de classe, os dados de treinamento são superamostrados para melhorar a distribuição de classes. O processo é iterativo - várias proporções de saída diferentes são testadas para encontrar o equilíbrio ideal para o desempenho do modelo.

Após a superamostragem, o conjunto de dados com superamostragem é usado para treinar os modelos na versão de experimento.

Para obter informações mais gerais sobre balanceamento de classe, consulte Balanceamento de classe.

Desativando a otimização inteligente

Com a otimização inteligente desativada, você está otimizando o treinamento manualmente. A otimização manual pode ser útil se você precisar de mais controle sobre o processo de treinamento. Em particular, você pode querer executar uma versão com otimização inteligente de modelos e, em seguida, desativar a configuração se precisar fazer um pequeno conjunto de ajustes manuais.

Nota informativaA otimização manual não está disponível em experimentos de séries temporais.
  1. Em um experimento, clique em Esquema Exibir configuração.

    O painel de configuração do experimento é aberto.

  2. Se você já executou pelo menos uma versão do experimento, clique em Nova versão.

  3. No painel, expanda Otimização do modelo.

  4. Alterne de Inteligente para Manual.

Considerações

Ao trabalhar com otimização inteligente de modelos, considere o seguinte:

  • Usar a otimização inteligente de modelos não garante que seu treinamento produzirá modelos de alta qualidade. Os estágios de preparação do conjunto de dados e configuração do experimento também são essenciais para produzir modelos confiáveis. Se você não tiver um conjunto de dados bem preparado ou se sua configuração estiver sem recursos principais, seus modelos não terão garantia de bom desempenho em casos de uso de produção. Para obter mais informações sobre esses estágios, consulte:

  • Quando a otimização inteligente de modelos é ativada para uma versão, cada modelo dessa versão terá um conjunto separado de recursos incluídos. Por outro lado, todos os modelos de uma versão treinada com otimização manual terão o mesmo conjunto de recursos incluídos.

  • A otimização inteligente de modelos usa apenas os recursos e algoritmos que você incluiu na configuração da versão.

Otimização de hiperparâmetros

A otimização de hiperparâmetros não está disponível quando a otimização inteligente de modelos está ativada. Para ativar a otimização de hiperparâmetros, você precisa definir a otimização do modelo como Manual.

Para obter mais informações, consulte Otimização de hiperparâmetros.

Exemplo

Para um exemplo demonstrando os benefícios da otimização inteligente de modelos, consulte Tutorial – Gerando e visualizando dados de previsão.

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!