Fuga de datos
El concepto de fuga de datos significa que los datos utilizados para entrenar un algoritmo de aprendizaje automático incluyen la información que intenta predecir. Esto podría llevar a que el modelo funcione mejor en el entrenamiento que en el mundo real, creando una falsa garantía de lo bien que funciona el modelo. Aprenda a identificar y prevenir la fuga de datos para obtener unas predicciones fiables.
Existen dos formas de fuga de datos:
-
Cuando se pueden usar una o más características en el conjunto de entrenamiento para derivar la variable objetivo que está tratando de predecir.
-
Cuando una o más características del conjunto de entrenamiento incluyen información que no se conocería en el momento de la predicción.
En la tabla siguiente, la columna Stage es una columna duplicada de la columna Stage (Binary), que queremos predecir. Al incluir Stage en el conjunto de datos de entrenamiento, estaríamos brindando la respuesta al resultado anticipado, lo que llevaría a una puntuación alta para nuestro modelo.
Identificar una fuga de datos
Para identificar una fuga de datos, considere preguntas como "¿Tendrá la misma información para los registros en el momento en que desee hacer una predicción?" o "¿El registro será el mismo en 30 días?". Recuerde que todos los datos de su conjunto de datos de entrenamiento deben ser relevantes para la restricción de tiempo en su pregunta.
Cuando haya entrenado un modelo, puede buscar las siguientes pistas en las métricas del modelo.
-
Puntuaciones altas: ¿La puntuación es realmente alta? Por ejemplo, ¿está la puntuación de F1 por encima de 85?
-
Importancia de la característica: ¿Hay una característica mucho más importante que todas las demás?
-
Puntuación de retención: ¿Es la puntuación de retención mucho más baja que la de la validación cruzada?
La tabla muestra ejemplos de características comunes que podrían causar fugas de datos.
Caso de uso empresarial | Objetivo |
Características con posibles fugas |
---|---|---|
¿Se cerrará una oportunidad de venta? |
Cerrar (Sí o No) |
Etapa, fecha de cierre, detalles de la factura, comisiones abonadas |
Predecir el montante de una transacción futura |
Montante de la próxima transacción |
Impuestos, detalles del pedido |
¿Se convertirá un lead en una oportunidad? |
Convertir (Sí o No) |
Detalles de la oportunidad, fecha de conversión |
¿Abandonará un cliente? |
Abandono (Sí o No) |
Razón de abandono, fecha de abandono, permanencia estática del cliente, temperatura del cliente |
¿Se irá un empleado voluntariamente? |
Terminar (Sí o No) |
Detalles de la entrevista de salida, fecha de cese, información de la carta de renuncia |
Prevenir la fuga de datos
La mejor manera de evitar una fuga de datos es utilizar el marco estructurado para obtener una buena pregunta empresarial y conjunto de datos. Para más información, vea Definir las preguntas de aprendizaje automático.