Ir para conteúdo principal Pular para conteúdo complementar

Vazamento de dados

Vazamento de dados significa que os dados usados para treinar um algoritmo de aprendizado de máquina incluem as informações que você está tentando prever. Isso pode fazer com que o modelo tenha um desempenho melhor no treinamento do que no mundo real, criando uma falsa garantia de quão bem o modelo funciona. Saiba como identificar e evitar vazamento de dados para obter previsões confiáveis.

Existem duas formas de vazamento de dados:

  • Quando um ou mais recursos no conjunto de treinamento podem ser usados para derivar a variável alvo que você está tentando prever.

  • Quando um ou mais recursos no conjunto de treinamento incluem informações que não seriam conhecidas no momento da previsão.

Na tabela a seguir, a coluna Estágio é uma duplicada da coluna Estágio (binário) que queremos prever. Ao incluir Estágio no conjunto de dados de treinamento, estaríamos fornecendo a resposta para o resultado esperado, levando a uma pontuação alta para o nosso modelo.

Tabela com a "coluna com vazamento" Estágio que contém informações sobre a coluna alvo Estágio (binário)

Tabela com dados de amostra.

Identificando vazamento de dados

Para identificar o vazamento de dados, considere perguntas como "Você terá as mesmas informações para registros no momento em que deseja fazer uma previsão?" ou "O registro será o mesmo daqui a 30 dias?". Lembre-se de que todos os dados em seu conjunto de dados de treinamento devem ser relevantes para a restrição de tempo em sua pergunta de negócios.

Depois de treinar um modelo, você pode procurar as seguintes pistas nas métricas do modelo.

  • Pontuações altas: A pontuação é muito alta? Por exemplo, a pontuação de F1 está acima de 85?

  • Importância do recurso: Um recurso é muito mais importante do que todo o resto?

  • Pontuação de retenção: A pontuação de retenção é muito menor do que a pontuação de validação cruzada?

A tabela mostra exemplos de recursos comuns que podem causar vazamento de dados.

Caso de uso de negócios Alvo

Recursos potencialmente vazados

Uma oportunidade de vendas será fechada?

Fechar (Sim ou Não)

Etapa, data de fechamento, detalhes da fatura, comissões pagas

Prever o valor de uma transação futura

Valor da próxima transação

Impostos, detalhes do pedido

Um lead se converterá em uma oportunidade?

Converter (Sim ou Não)

Detalhes da oportunidade, data de conversão

Um cliente vai cancelar?

Cancelar (Sim ou Não)

Motivo do cancelamento, data do cancelamento, permanência estática do cliente, temperatura do cliente

Um funcionário se demitirá voluntariamente?

Demitir-se (Sim ou Não)

Detalhes da entrevista de saída, data do desligamento, informações da carta de demissão

Prevenindo vazamento de dados

A melhor maneira de evitar o vazamento de dados é usar o framework estruturado para obter uma boa pergunta de negócios e um conjunto de dados. Para obter mais informações, consulte Definindo perguntas de aprendizado de máquina.

Nota de dicaSe você identificou uma coluna com vazamento que não deve ser usada no treinamento do modelo, ainda pode mantê-la no conjunto de dados. Basta excluir esse recurso dos dados de treinamento em seu experimento de aprendizado de máquina.
APRENDIZADO RELACIONADO:

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!