Saltar al contenido principal Saltar al contenido complementario

Fuga de datos

El concepto de fuga de datos significa que los datos utilizados para entrenar un algoritmo de aprendizaje automático incluyen la información que intenta predecir. Esto podría llevar a que el modelo funcione mejor en el entrenamiento que en el mundo real, creando una falsa garantía de lo bien que funciona el modelo. Aprenda a identificar y prevenir la fuga de datos para obtener unas predicciones fiables.

Existen dos formas de fuga de datos:

  • Cuando se pueden usar una o más características en el conjunto de entrenamiento para derivar la variable objetivo que está tratando de predecir.

  • Cuando una o más características del conjunto de entrenamiento incluyen información que no se conocería en el momento de la predicción.

En la tabla siguiente, la columna Stage es una columna duplicada de la columna Stage (Binary), que queremos predecir. Al incluir Stage en el conjunto de datos de entrenamiento, estaríamos brindando la respuesta al resultado anticipado, lo que llevaría a una puntuación alta para nuestro modelo.

Tabla con la columna con fugas Stage que contiene información sobre la columna objetivo Stage (Binary)

Tabla con datos de muestra.

Identificar una fuga de datos

Para identificar una fuga de datos, considere preguntas como "¿Tendrá la misma información para los registros en el momento en que desee hacer una predicción?" o "¿El registro será el mismo en 30 días?". Recuerde que todos los datos de su conjunto de datos de entrenamiento deben ser relevantes para la restricción de tiempo en su pregunta.

Cuando haya entrenado un modelo, puede buscar las siguientes pistas en las métricas del modelo.

  • Puntuaciones altas: ¿La puntuación es realmente alta? Por ejemplo, ¿está la puntuación de F1 por encima de 85?

  • Importancia de la característica: ¿Hay una característica mucho más importante que todas las demás?

  • Puntuación de retención: ¿Es la puntuación de retención mucho más baja que la de la validación cruzada?

La tabla muestra ejemplos de características comunes que podrían causar fugas de datos.

Caso de uso empresarial Objetivo

Características con posibles fugas

¿Se cerrará una oportunidad de venta?

Cerrar (Sí o No)

Etapa, fecha de cierre, detalles de la factura, comisiones abonadas

Predecir el montante de una transacción futura

Montante de la próxima transacción

Impuestos, detalles del pedido

¿Se convertirá un lead en una oportunidad?

Convertir (Sí o No)

Detalles de la oportunidad, fecha de conversión

¿Abandonará un cliente?

Abandono (Sí o No)

Razón de abandono, fecha de abandono, permanencia estática del cliente, temperatura del cliente

¿Se irá un empleado voluntariamente?

Terminar (Sí o No)

Detalles de la entrevista de salida, fecha de cese, información de la carta de renuncia

Prevenir la fuga de datos

La mejor manera de evitar una fuga de datos es utilizar el marco estructurado para obtener una buena pregunta empresarial y conjunto de datos. Para más información, vea Definir las preguntas de aprendizaje automático.

Nota de sugerenciaSi ha identificado una columna con fugas que no deba usarse en el entrenamiento del modelo, todavía puede mantenerla en el conjunto de datos. Simplemente excluya esa característica de los datos de entrenamiento en su experimento de aprendizaje automático.
APRENDIZAJE RELACIONADO:

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.