Vazamento de dados
Vazamento de dados significa que os dados usados para treinar um algoritmo de aprendizado de máquina incluem as informações que você está tentando prever. Isso pode fazer com que o modelo tenha um desempenho melhor no treinamento do que no mundo real, criando uma falsa garantia de quão bem o modelo funciona. Saiba como identificar e evitar vazamento de dados para obter previsões confiáveis.
Em geral, o vazamento de dados é causado por pelo menos um dos seguintes:
-
Quando um ou mais recursos no conjunto de treinamento podem ser usados para derivar a variável alvo que você está tentando prever. Por exemplo, seu destino é um campo Sales e um de seus recursos é um campo Sales Tax calculado a partir de Sales.
-
Quando um ou mais recursos no conjunto de treinamento incluem informações que não seriam conhecidas no momento da previsão.
Na tabela a seguir, a coluna Stage é uma coluna duplicada da coluna Stage (Binary) que queremos prever. Ao incluir Stage no conjunto de dados de treinamento, estaríamos fornecendo a resposta para o resultado esperado, levando a uma pontuação alta para o nosso modelo.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
Vazamento de alvo
O vazamento de destino é uma forma de vazamento de dados. O vazamento de destino ocorre quando os dados do recurso fazem referência aos dados de destino que podem ser usados para previsões. As referências, ou "vazamentos", podem ser diretas ou indiretas.
Com a otimização inteligente do modelo, o AutoML identifica o vazamento de alvo e impede que ele seja introduzido em seus modelos. Os recursos que indicam vazamento de alvo são detectados e removidos automaticamente do treinamento do modelo. Para obter mais informações sobre otimização de modelo inteligente, consulte Otimização de modelo inteligente.
Identificando vazamento de dados
Para identificar o vazamento de dados, considere perguntas como "Você terá as mesmas informações para registros no momento em que deseja fazer uma previsão?" ou "O registro será o mesmo daqui a 30 dias?". Lembre-se de que todos os dados em seu conjunto de dados de treinamento devem ser relevantes para a restrição de tempo em sua pergunta de negócios.
Depois de treinar um modelo, você pode procurar as seguintes pistas nas métricas do modelo.
-
Pontuações altas: a pontuação é muito alta? Por exemplo, a pontuação de F1 está acima de 85?
-
Importância do recurso: um recurso é muito mais importante do que todo o resto?
-
Pontuação de retenção: a pontuação de retenção é muito menor do que a pontuação de validação cruzada?
A tabela mostra exemplos de recursos comuns que podem causar vazamento de dados.
Caso de uso de negócios | Alvo |
Recursos potencialmente vazados |
---|---|---|
Uma oportunidade de vendas será fechada? |
Fechar (Sim ou Não) |
Etapa, data de fechamento, detalhes da fatura, comissões pagas |
Prever o valor de uma transação futura |
Valor da próxima transação |
Impostos, detalhes do pedido |
Um lead se converterá em uma oportunidade? |
Converter (Sim ou Não) |
Detalhes da oportunidade, data de conversão |
Um cliente vai cancelar? |
Cancelar (Sim ou Não) |
Motivo do cancelamento, data do cancelamento, permanência estática do cliente, temperatura do cliente |
Um funcionário se demitirá voluntariamente? |
Demitir-se (Sim ou Não) |
Detalhes da entrevista de saída, data do desligamento, informações da carta de demissão |
Prevenindo vazamento de dados
A melhor maneira de evitar o vazamento de dados é usar o framework estruturado para obter uma boa pergunta de negócios e um conjunto de dados. Para obter mais informações, consulte Definindo perguntas de aprendizado de máquina.