Desvio de dados
Com o tempo, a acurácia do seu modelo pode diminuir porque os dados em um ou mais recursos mudam em distribuição, magnitude e outras propriedades. Como o modelo original foi treinado com recursos que contêm padrões e distribuições específicos, futuras alterações nessas distribuições afetarão a precisão e a qualidade das previsões.
O desvio de dados pode ser quantificado e calculado de várias maneiras. No Qlik AutoML, o desvio de dados é calculado com a fórmula do índice de estabilidade da população. Consulte Monitorando o desvio de dados em modelos implementados.
Uma prática recomendada é monitorar o modelo de dados comparando o conjunto de dados de treinamento original com o conjunto de dados de aplicação mais atualizado no qual você está gerando previsões. Quando o desvio de dados atingir um threshold específico, treine novamente o modelo ou configure um novo modelo se o problema original de aprendizado de máquina tiver mudado substancialmente.
Para obter mais informações sobre como avaliar o desempenho do modelo ao longo do tempo, consulte Avaliando o desempenho de modelo ao longo do tempo.
Exemplo
Suponha que uma empresa tenha um conjunto de produtos que se tornou popular principalmente entre consumidores com 45 anos ou mais. A distribuição de valores para um recurso Age pode ser parecida com a seguinte.
Recentemente, a empresa lançou um novo produto que é comercializado para atrair também os consumidores mais jovens. Quando o produto é vendido conforme o esperado, vemos um desvio significativo de recursos para o recurso Age.
Monitoramento de desvio de dados no AutoML
O AutoML tem ferramentas integradas para ajudá-lo a detectar desvios de dados por recurso em seus modelos implementados. Para obter mais informações, consulte Monitorando o desvio de dados em modelos implementados.