Fuga de datos
La fuga de datos significa que los datos utilizados para entrenar un algoritmo de aprendizaje automático incluyen la información que intenta predecir. Esto podría llevar a que el modelo funcione mejor en el entrenamiento que en el mundo real, creando una falsa garantía de lo bien que funciona el modelo. Aprenda a identificar y prevenir la fuga de datos para obtener predicciones fiables.
En términos generales, la fuga de datos está causada por al menos una de las siguientes causas:
-
Cuando se pueden usar una o más características en el conjunto de entrenamiento para derivar la variable objetivo que está tratando de predecir. Por ejemplo, si su objetivo es un campo de ventas Sales y una de sus características es un campo de tasa de impuestos sobre ventas Sales Tax, el cual se calcula a partir de Sales.
-
Cuando una o más características en el conjunto de entrenamiento incluyen información que no se conocería en el momento de la predicción.
En la siguiente tabla, la columna Stage es una columna duplicada de la columna Stage (Binary) que queremos predecir. Al incluir Stage en el conjunto de datos de entrenamiento, estaríamos brindando la respuesta al resultado anticipado, lo que llevaría a una puntuación alta para nuestro modelo.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
Fuga de objetivos
La fuga de objetivos es una forma de fuga de datos. La fuga de objetivos se produce cuando los datos de características hacen referencia a datos de objetivos que podrían utilizarse para las predicciones. Las referencias, o «fugas», pueden ser directas o indirectas.
Gracias a la optimización inteligente de modelos, AutoML identifica las fugas de objetivos y evita que se introduzcan en sus modelos. Las características que indican la fuga del objetivo se detectan automáticamente y se eliminan del entrenamiento del modelo. Para obtener más información sobre la optimización inteligente de modelos, consulte Optimización inteligente de modelos.
Identificar la fuga de datos
Para identificar la fuga de datos, considere preguntas como "¿Tendrá la misma información para los registros en el momento en que desee hacer una predicción?" o "¿El registro será el mismo en 30 días?". Recuerde que todos los datos de su conjunto de datos de capacitación deben ser relevantes para la restricción de tiempo en su pregunta.
Cuando haya entrenado un modelo, puede buscar las siguientes pistas en las métricas del modelo.
-
Puntuación alta: ¿la puntuación es realmente alta? Por ejemplo, ¿la puntuación de F1 está por encima de 85?
-
Importancia de una característica: ¿es una característica mucho más importante que todas las demás?
-
Puntuación de reserva o retención: ¿la puntuación de retención es mucho más baja que la puntuación de validación cruzada?
La tabla muestra ejemplos de características comunes que podrían ocasionar fugas de datos.
Caso de uso empresarial | Objetivo |
Características con posibles fugas |
---|---|---|
¿Se cerrará una oportunidad de venta? |
Cerrar (Sí o No) |
Etapa, fecha de cierre, detalles de la factura, comisiones abonadas |
Predecir el montante de una transacción futura |
Montante de la próxima transacción |
Impuestos, detalles del pedido |
¿Se convertirá un lead en una oportunidad? |
Convertir (Sí o No) |
Detalles de la oportunidad, fecha de conversión |
¿Abandonará un cliente? |
Abandono (Sí o No) |
Razón de abandono, fecha de abandono, permanencia estática del cliente, temperatura del cliente |
¿Se irá un empleado voluntariamente? |
Terminar (Sí o No) |
Detalles de la entrevista de salida, fecha de terminación, información de la carta de renuncia |
Prevenir la fuga de datos
La mejor manera de evitar la fuga de datos es utilizar el marco estructurado para obtener una buena pregunta de negocio y un conjunto de datos. Para obtener más información, consulte Definir las preguntas de aprendizaje automático.