Detecção e tratamento de anomalias
A detecção e o tratamento de anomalias são fornecidos ao usar a otimização inteligente de modelos. Com esses recursos, o Qlik AutoML pode lidar com valores de discrepância em seus dados de treinamento automaticamente com um processamento específico. Durante o treinamento, os dados de discrepância dos seus dados de treinamento não são totalmente removidos, mas são processados usando um sistema de ponderação alimentado por algoritmo.
É comum observar valores discrepantes, ou anomalias, em quase todos os tipos de dados com os quais você pode trabalhar. Anomalias são valores de dados que ocorrem fora do intervalo convencionalmente esperado que você pode esperar. Ao treinar modelos de aprendizado de máquina, uma certa proporção de anomalias pode ser tolerada e pode até ser desejável como um reflexo do desvio do mundo real. No entanto, em casos extremos, anomalias e valores discrepantes introduzem viés em um modelo, reduzindo sua confiabilidade e utilidade.
Exemplos
Nem todas as anomalias devem ser tratadas igualmente e nem sempre devem ser vistas como coisas a serem removidas dos seus dados. Por exemplo, se uma anomalia de dados for uma ocorrência naturalmente possível, mas pouco frequente, que pode ser observada ao coletar dados, pode fazer sentido que você queira que isso seja usado nos modelos que você treina. Um ótimo exemplo disso são as instâncias de fraude em transações financeiras. Em milhões de transações, apenas algumas podem estar relacionadas à fraude. Dependendo do problema que você deseja analisar e abordar com seu modelo, a probabilidade de fraude em transações cotidianas pode ser algo que você gostaria de considerar ao gerar previsões.
Um exemplo de uma anomalia que você provavelmente desejaria remover é uma falha não intencional que ocorre quando você está coletando dados. Por exemplo, digamos que você esteja construindo um modelo que será usado para prever padrões climáticos. Seu modelo está sendo treinado em dados de um sensor que monitora métricas climáticas, e uma queda de energia não relacionada resulta em dados defeituosos sendo coletados do sensor. Esses dados defeituosos podem ser considerados dados de anomalia que você desejaria remover antes de terminar o treinamento do modelo.
Como o Qlik AutoML lida com anomalias?
A detecção e o tratamento de anomalias são realizados quando você treina modelos com a otimização inteligente de modelos, que é ativada por padrão em novos experimentos.
O tratamento de anomalias geralmente pode ser considerado como ocorrendo em dois processos separados: detecção e treinamento do modelo real.
Detecção de anomalias
Quando você executa uma versão do treinamento, o AutoML conclui várias etapas antes do início do treinamento do modelo. Isso inclui a classificação de dados, a imputação nula e vários outros processos. A detecção de anomalias é concluída durante esse estágio, e somente quando a otimização inteligente de modelos está ativada.
Em termos técnicos, o Qlik AutoML usa um algoritmo baseado em árvore de decisão, o algoritmo de floresta de isolamento, para detectar anomalias e valores discrepantes em seus dados de treinamento. Durante o estágio de processamento de dados na otimização inteligente de modelos, cada ponto de dados no conjunto de dados (geralmente conhecido como registro) recebe uma pontuação de anomalia e é ponderado com base no grau de certeza de que se trata de uma anomalia.
Tratamento de anomalias no treinamento de modelos
Depois que seus dados são processados e transformados conforme necessário, o AutoML começa a treinar os modelos. Durante esse processo, as pontuações ponderadas de anomalias geradas anteriormente são usadas para ajustar a influência que cada linha tem no modelo. Por exemplo, uma linha considerada altamente provável de conter uma anomalia é atribuída a uma baixa influência no treinamento do modelo.
Esse sistema de pontuação ponderada permite que o AutoML evite o descarte de dados e, em vez disso, simplesmente reduza o impacto que dados discrepantes têm no modelo.
Considerações
Apesar dos recursos de detecção de anomalias disponíveis no Qlik AutoML, isso não significa que qualquer dado possa ser usado para treinar um modelo de alta qualidade. Se seus dados contiverem proporções anormalmente grandes de informações defeituosas ou corrompidas, a detecção de anomalias não pode resolver todos esses problemas.
Nesses cenários, é recomendável que você retorne ao processo de coleta de dados para garantir que tenha os dados mais realistas e de alta qualidade disponíveis para você. Isso ajudará você a otimizar a confiabilidade e o sucesso do seu modelo de aprendizado de máquina.