Monitorando o desvio de dados em modelos implementados
No painel Monitoramento de desvio de dados em sua implementação de ML, você pode analisar o desvio de dados para o modelo de fonte de dados implementado. O monitoramento do desvio de dados permite que você identifique alterações nas distribuições de um ou mais recursos usados para treinar o modelo.
Quando o desvio calculado para um recurso ultrapassar o valor de 0,25, é recomendável que você treine novamente o modelo com os dados mais recentes ou configure um novo modelo se a pergunta original de aprendizado de máquina tiver mudado significativamente.
Cálculos de desvio de dados no AutoML
No Qlik AutoML, o desvio de dados é calculado como o índice de estabilidade populacional (PSI).
Você pode identificar desvios de dados significativos para um recurso observando seu valor PSI. Se o valor do PSI for maior ou igual a 0,25, considere treinar novamente o modelo ou criar um novo experimento.
Valor PSI | Descrição |
---|---|
Abaixo de 0,1 | Baixo desvio |
Maior que 0,1, mas menor que 0,25 | Desvio menor |
Maior que ou igual a 0,25 | Desvio significativo |
Iniciando uma análise de desvio de dados
Faça o seguinte:
-
Abra uma implementação de ML.
-
No painel esquerdo, selecione Monitoramento de desvio de dados.
-
É gerada uma análise incorporada. Permaneça na pasta Feature Drift para realizar a análise de desvio de dados.
Disponibilidade da análise
Novos cálculos de desvio de dados não são gerados imediatamente quando você abre uma análise. Os cálculos de desvio de dados são gerados uma vez por dia às 16h30 UTC.
Navegando por análises integradas
Use a interface interativa para analisar o modelo implementado com análises integradas.
Alternando entre pastas
O painel Pastas permite alternar entre as pastas na análise. Cada pasta tem um foco específico. O painel pode ser expandido e recolhido conforme necessário.
A pasta Feature Drift contém todas as informações sobre desvio de dados. A mudança para a pasta Operations permite que você monitore o uso da implementação do ML. Para obter mais informações, consulte Monitorando as operações de modelo implementado.
Fazendo seleções
Use seleções para refinar os dados. Você pode selecionar recursos e seus valores ou intervalos específicos e filtrar por datas específicas e intervalos de importância. Em alguns casos, pode ser necessário fazer uma ou mais seleções para que as visualizações sejam exibidas. Clique em valores de dados em visualizações para fazer seleções.
Você pode trabalhar com seleções ao:
-
Selecionar valores clicando em conteúdo, definindo intervalos e desenhando.
-
Pesquisar em gráficos para selecionar valores.
-
Clicar em um campo selecionado na barra de ferramentas na parte superior da análise integrada. Isso permite que você pesquise em seleções existentes, bloqueie ou desbloqueie-as e modifique-as ainda mais.
-
Na barra de ferramentas na parte superior da análise integrada, clique em para remover uma seleção. Limpe todas as seleções clicando no ícone .
-
Avance e retroceda em suas seleções clicando em e .
Analisando o desvio de recursos juntamente com a importância
Use o gráfico Feature drift vs importance para analisar o desvio de recursos e a importância da permutação em conjunto. Você pode identificar quando as mudanças no desvio estão ocorrendo paralelamente às mudanças nos padrões de importância. Ao visualizar essas duas métricas juntas, você pode descobrir novos padrões emergentes e desenvolver uma compreensão mais profunda das tendências que afetam seus dados.
Para entender o que as pontuações de desvio significam para o desempenho de seu modelo, consulte Cálculos de desvio de dados no AutoML.
Monitorando o desvio de recursos ao longo do tempo
No gráfico Feature drift over time, veja a linha do tempo de cada cálculo de desvio e analise as mudanças que vêm ocorrendo ao longo do tempo à medida que novas previsões são geradas.
Uma linha de referência foi adicionada a um valor PSI de 0,25 para indicar quando um recurso está demonstrando um desvio significativo. Para saber mais sobre o que as pontuações de desvio significam para o desempenho de seu modelo, consulte Cálculos de desvio de dados no AutoML.
Visualizando a distribuição de recursos
O gráfico Value distribution é útil para comparar a distribuição de valores de um recurso entre o conjunto de dados de treinamento e o conjunto de dados usado para a última previsão gerada com o modelo. Você pode identificar quais intervalos em um recurso são mais e menos afetados pelo desvio.
As barras azuis indicam a porcentagem de valores no conjunto de dados de aplicação mais recente que se enquadra em cada intervalo. Os marcadores roxos em forma de círculo mostram a porcentagem de valores no conjunto de dados de treinamento que se enquadram em cada intervalo. Se você notar uma grande diferença entre a altura das barras e a posição dos marcadores, é provável que a faixa seja afetada por desvios.