Fuga de datos

La fuga de datos significa que los datos utilizados para entrenar un algoritmo de aprendizaje automático incluyen la información que intenta predecir. Esto podría llevar a que el modelo funcione mejor en el entrenamiento que en el mundo real, creando una falsa garantía de lo bien que funciona el modelo. Aprenda a identificar y prevenir la fuga de datos para obtener predicciones fiables.

En términos generales, la fuga de datos está causada por al menos una de las siguientes causas:

Cuando se pueden usar una o más características en el conjunto de entrenamiento para derivar la variable objetivo que está tratando de predecir. Por ejemplo, si su objetivo es un campo de ventas Sales y una de sus características es un campo de tasa de impuestos sobre ventas Sales Tax, el cual se calcula a partir de Sales.
Cuando una o más características en el conjunto de entrenamiento incluyen información que no se conocería en el momento de la predicción.

En la siguiente tabla, la columna Stage es una columna duplicada de la columna Stage (Binary) que queremos predecir. Al incluir Stage en el conjunto de datos de entrenamiento, estaríamos brindando la respuesta al resultado anticipado, lo que llevaría a una puntuación alta para nuestro modelo.

Tabla con la "columna con fugas" Stage que contiene información sobre la columna de destino Stage (Binary)
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Fuga de objetivos

La fuga de objetivos es una forma de fuga de datos. La fuga de objetivos se produce cuando los datos de características hacen referencia a datos de objetivos que podrían utilizarse para las predicciones. Las referencias, o «fugas», pueden ser directas o indirectas.

Gracias a la optimización inteligente de modelos, AutoML identifica las fugas de objetivos y evita que se introduzcan en sus modelos. Las características que indican la fuga del objetivo se detectan automáticamente y se eliminan del entrenamiento del modelo. Para obtener más información sobre la optimización inteligente de modelos, consulte Optimización inteligente de modelos.

Identificar la fuga de datos

Para identificar la fuga de datos, considere preguntas como "¿Tendrá la misma información para los registros en el momento en que desee hacer una predicción?" o "¿El registro será el mismo en 30 días?". Recuerde que todos los datos de su conjunto de datos de capacitación deben ser relevantes para la restricción de tiempo en su pregunta.

Cuando haya entrenado un modelo, puede buscar las siguientes pistas en las métricas del modelo.

Puntuación alta: ¿la puntuación es realmente alta? Por ejemplo, ¿la puntuación de F1 está por encima de 85?
Importancia de una característica: ¿es una característica mucho más importante que todas las demás?
Puntuación de reserva o retención: ¿la puntuación de retención es mucho más baja que la puntuación de validación cruzada?

La tabla muestra ejemplos de características comunes que podrían ocasionar fugas de datos.

Caso de uso empresarial	Objetivo	Características con posibles fugas
¿Se cerrará una oportunidad de venta?	Cerrar (Sí o No)	Etapa, fecha de cierre, detalles de la factura, comisiones abonadas
Predecir el montante de una transacción futura	Montante de la próxima transacción	Impuestos, detalles del pedido
¿Se convertirá un lead en una oportunidad?	Convertir (Sí o No)	Detalles de la oportunidad, fecha de conversión
¿Abandonará un cliente?	Abandono (Sí o No)	Razón de abandono, fecha de abandono, permanencia estática del cliente, temperatura del cliente
¿Se irá un empleado voluntariamente?	Terminar (Sí o No)	Detalles de la entrevista de salida, fecha de terminación, información de la carta de renuncia

Prevenir la fuga de datos

La mejor manera de evitar la fuga de datos es utilizar el marco estructurado para obtener una buena pregunta de negocio y un conjunto de datos. Para obtener más información, consulte Definir las preguntas de aprendizaje automático.

Si ha identificado una columna con fugas que no deba usarse en el entrenamiento del modelo, todavía puede mantenerla en el conjunto de datos. Simplemente excluya esta característica de los datos de entrenamiento en su experimento de aprendizaje automático.

APRENDIZAJE RELACIONADO:

Análisis de exploración de datos

Más información

Análisis de exploración de datos

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.

Deje aquí sus comentarios