Ir para conteúdo principal Pular para conteúdo complementar

Vazamento de dados

Vazamento de dados significa que os dados usados para treinar um algoritmo de aprendizado de máquina incluem as informações que você está tentando prever. Isso pode fazer com que o modelo tenha um desempenho melhor no treinamento do que no mundo real, criando uma falsa garantia de quão bem o modelo funciona. Saiba como identificar e evitar vazamento de dados para obter previsões confiáveis.

Em geral, o vazamento de dados é causado por pelo menos um dos seguintes:

  • Quando um ou mais recursos no conjunto de treinamento podem ser usados para derivar a variável alvo que você está tentando prever. Por exemplo, seu destino é um campo Sales e um de seus recursos é um campo Sales Tax calculado a partir de Sales.

  • Quando um ou mais recursos no conjunto de treinamento incluem informações que não seriam conhecidas no momento da previsão.

Na tabela a seguir, a coluna Stage é uma coluna duplicada da coluna Stage (Binary) que queremos prever. Ao incluir Stage no conjunto de dados de treinamento, estaríamos fornecendo a resposta para o resultado esperado, levando a uma pontuação alta para o nosso modelo.

Tabela com a "coluna com vazamento" Stage que contém informações sobre a coluna de destino Stage (Binary)
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Vazamento de alvo

O vazamento de destino é uma forma de vazamento de dados. O vazamento de destino ocorre quando os dados do recurso fazem referência aos dados de destino que podem ser usados para previsões. As referências, ou "vazamentos", podem ser diretas ou indiretas.

Com a otimização inteligente do modelo, o AutoML identifica o vazamento de alvo e impede que ele seja introduzido em seus modelos. Os recursos que indicam vazamento de alvo são detectados e removidos automaticamente do treinamento do modelo. Para obter mais informações sobre otimização de modelo inteligente, consulte Otimização de modelo inteligente.

Identificando vazamento de dados

Para identificar o vazamento de dados, considere perguntas como "Você terá as mesmas informações para registros no momento em que deseja fazer uma previsão?" ou "O registro será o mesmo daqui a 30 dias?". Lembre-se de que todos os dados em seu conjunto de dados de treinamento devem ser relevantes para a restrição de tempo em sua pergunta de negócios.

Depois de treinar um modelo, você pode procurar as seguintes pistas nas métricas do modelo.

  • Pontuações altas: a pontuação é muito alta? Por exemplo, a pontuação de F1 está acima de 85?

  • Importância do recurso: um recurso é muito mais importante do que todo o resto?

  • Pontuação de retenção: a pontuação de retenção é muito menor do que a pontuação de validação cruzada?

A tabela mostra exemplos de recursos comuns que podem causar vazamento de dados.

Caso de uso de negócios Alvo

Recursos potencialmente vazados

Uma oportunidade de vendas será fechada?

Fechar (Sim ou Não)

Etapa, data de fechamento, detalhes da fatura, comissões pagas

Prever o valor de uma transação futura

Valor da próxima transação

Impostos, detalhes do pedido

Um lead se converterá em uma oportunidade?

Converter (Sim ou Não)

Detalhes da oportunidade, data de conversão

Um cliente vai cancelar?

Cancelar (Sim ou Não)

Motivo do cancelamento, data do cancelamento, permanência estática do cliente, temperatura do cliente

Um funcionário se demitirá voluntariamente?

Demitir-se (Sim ou Não)

Detalhes da entrevista de saída, data do desligamento, informações da carta de demissão

Prevenindo vazamento de dados

A melhor maneira de evitar o vazamento de dados é usar o framework estruturado para obter uma boa pergunta de negócios e um conjunto de dados. Para obter mais informações, consulte Definindo perguntas de aprendizado de máquina.

Nota de dicaSe você identificou uma coluna com vazamento que não deve ser usada no treinamento do modelo, ainda pode mantê-la no conjunto de dados. Basta excluir esse recurso dos dados de treinamento em seu experimento de aprendizado de máquina.
APRENDIZADO RELACIONADO:

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!