Saltar al contenido principal Saltar al contenido complementario

Fuga de datos

La fuga de datos significa que los datos utilizados para entrenar un algoritmo de aprendizaje automático incluyen la información que intenta predecir. Esto podría llevar a que el modelo funcione mejor en el entrenamiento que en el mundo real, creando una falsa garantía de lo bien que funciona el modelo. Aprenda a identificar y prevenir la fuga de datos para obtener predicciones fiables.

En términos generales, la fuga de datos está causada por al menos una de las siguientes causas:

  • Cuando se pueden usar una o más características en el conjunto de entrenamiento para derivar la variable objetivo que está tratando de predecir. Por ejemplo, si su objetivo es un campo de ventas Sales y una de sus características es un campo de tasa de impuestos sobre ventas Sales Tax, el cual se calcula a partir de Sales.

  • Cuando una o más características en el conjunto de entrenamiento incluyen información que no se conocería en el momento de la predicción.

En la siguiente tabla, la columna Stage es una columna duplicada de la columna Stage (Binary) que queremos predecir. Al incluir Stage en el conjunto de datos de entrenamiento, estaríamos brindando la respuesta al resultado anticipado, lo que llevaría a una puntuación alta para nuestro modelo.

Tabla con la "columna con fugas" Stage que contiene información sobre la columna de destino Stage (Binary)
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Fuga de objetivos

La fuga de objetivos es una forma de fuga de datos. La fuga de objetivos se produce cuando los datos de características hacen referencia a datos de objetivos que podrían utilizarse para las predicciones. Las referencias, o «fugas», pueden ser directas o indirectas.

Gracias a la optimización inteligente de modelos, AutoML identifica las fugas de objetivos y evita que se introduzcan en sus modelos. Las características que indican la fuga del objetivo se detectan automáticamente y se eliminan del entrenamiento del modelo. Para obtener más información sobre la optimización inteligente de modelos, consulte Optimización inteligente de modelos.

Identificar la fuga de datos

Para identificar la fuga de datos, considere preguntas como "¿Tendrá la misma información para los registros en el momento en que desee hacer una predicción?" o "¿El registro será el mismo en 30 días?". Recuerde que todos los datos de su conjunto de datos de capacitación deben ser relevantes para la restricción de tiempo en su pregunta.

Cuando haya entrenado un modelo, puede buscar las siguientes pistas en las métricas del modelo.

  • Puntuación alta: ¿la puntuación es realmente alta? Por ejemplo, ¿la puntuación de F1 está por encima de 85?

  • Importancia de una característica: ¿es una característica mucho más importante que todas las demás?

  • Puntuación de reserva o retención: ¿la puntuación de retención es mucho más baja que la puntuación de validación cruzada?

La tabla muestra ejemplos de características comunes que podrían ocasionar fugas de datos.

Caso de uso empresarial Objetivo

Características con posibles fugas

¿Se cerrará una oportunidad de venta?

Cerrar (Sí o No)

Etapa, fecha de cierre, detalles de la factura, comisiones abonadas

Predecir el montante de una transacción futura

Montante de la próxima transacción

Impuestos, detalles del pedido

¿Se convertirá un lead en una oportunidad?

Convertir (Sí o No)

Detalles de la oportunidad, fecha de conversión

¿Abandonará un cliente?

Abandono (Sí o No)

Razón de abandono, fecha de abandono, permanencia estática del cliente, temperatura del cliente

¿Se irá un empleado voluntariamente?

Terminar (Sí o No)

Detalles de la entrevista de salida, fecha de terminación, información de la carta de renuncia

Prevenir la fuga de datos

La mejor manera de evitar la fuga de datos es utilizar el marco estructurado para obtener una buena pregunta de negocio y un conjunto de datos. Para obtener más información, consulte Definir las preguntas de aprendizaje automático.

Nota de sugerenciaSi ha identificado una columna con fugas que no deba usarse en el entrenamiento del modelo, todavía puede mantenerla en el conjunto de datos. Simplemente excluya esta característica de los datos de entrenamiento en su experimento de aprendizaje automático.
APRENDIZAJE RELACIONADO:

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.