Vazamento de dados

Vazamento de dados significa que os dados usados para treinar um algoritmo de aprendizado de máquina incluem as informações que você está tentando prever. Isso pode fazer com que o modelo tenha um desempenho melhor no treinamento do que no mundo real, criando uma falsa garantia de quão bem o modelo funciona. Saiba como identificar e evitar vazamento de dados para obter previsões confiáveis.

Em geral, o vazamento de dados é causado por pelo menos um dos seguintes:

Quando um ou mais recursos no conjunto de treinamento podem ser usados para derivar a variável alvo que você está tentando prever. Por exemplo, seu destino é um campo Sales e um de seus recursos é um campo Sales Tax calculado a partir de Sales.
Quando um ou mais recursos no conjunto de treinamento incluem informações que não seriam conhecidas no momento da previsão.

Na tabela a seguir, a coluna Stage é uma coluna duplicada da coluna Stage (Binary) que queremos prever. Ao incluir Stage no conjunto de dados de treinamento, estaríamos fornecendo a resposta para o resultado esperado, levando a uma pontuação alta para o nosso modelo.

Tabela com a "coluna com vazamento" Stage que contém informações sobre a coluna de destino Stage (Binary)
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Vazamento de alvo

O vazamento de destino é uma forma de vazamento de dados. O vazamento de destino ocorre quando os dados do recurso fazem referência aos dados de destino que podem ser usados para previsões. As referências, ou "vazamentos", podem ser diretas ou indiretas.

Com a otimização inteligente do modelo, o AutoML identifica o vazamento de alvo e impede que ele seja introduzido em seus modelos. Os recursos que indicam vazamento de alvo são detectados e removidos automaticamente do treinamento do modelo. Para obter mais informações sobre otimização de modelo inteligente, consulte Otimização de modelo inteligente.

Identificando vazamento de dados

Para identificar o vazamento de dados, considere perguntas como "Você terá as mesmas informações para registros no momento em que deseja fazer uma previsão?" ou "O registro será o mesmo daqui a 30 dias?". Lembre-se de que todos os dados em seu conjunto de dados de treinamento devem ser relevantes para a restrição de tempo em sua pergunta de negócios.

Depois de treinar um modelo, você pode procurar as seguintes pistas nas métricas do modelo.

Pontuações altas: a pontuação é muito alta? Por exemplo, a pontuação de F1 está acima de 85?
Importância do recurso: um recurso é muito mais importante do que todo o resto?
Pontuação de retenção: a pontuação de retenção é muito menor do que a pontuação de validação cruzada?

A tabela mostra exemplos de recursos comuns que podem causar vazamento de dados.

Caso de uso de negócios	Alvo	Recursos potencialmente vazados
Uma oportunidade de vendas será fechada?	Fechar (Sim ou Não)	Etapa, data de fechamento, detalhes da fatura, comissões pagas
Prever o valor de uma transação futura	Valor da próxima transação	Impostos, detalhes do pedido
Um lead se converterá em uma oportunidade?	Converter (Sim ou Não)	Detalhes da oportunidade, data de conversão
Um cliente vai cancelar?	Cancelar (Sim ou Não)	Motivo do cancelamento, data do cancelamento, permanência estática do cliente, temperatura do cliente
Um funcionário se demitirá voluntariamente?	Demitir-se (Sim ou Não)	Detalhes da entrevista de saída, data do desligamento, informações da carta de demissão

Prevenindo vazamento de dados

A melhor maneira de evitar o vazamento de dados é usar o framework estruturado para obter uma boa pergunta de negócios e um conjunto de dados. Para obter mais informações, consulte Definindo perguntas de aprendizado de máquina.

Se você identificou uma coluna com vazamento que não deve ser usada no treinamento do modelo, ainda pode mantê-la no conjunto de dados. Basta excluir esse recurso dos dados de treinamento em seu experimento de aprendizado de máquina.

APRENDIZADO RELACIONADO:

Análise exploratória de dados

Saiba mais

Análise exploratória de dados

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!

Deixe seu feedback aqui