Fuite de données
Une fuite de données signifie que les données utilisées pour former un algorithme d'apprentissage automatique incluent les informations que vous tentez de prédire. Cela peut entraîner le modèle à se montrer plus performant lors de l'apprentissage qu'en conditions réelles, créant une fausse confiance quant aux performances du modèle. Vous devez apprendre à identifier et à prévenir la fuite de données afin d'obtenir des prédictions fiables.
En règle générale, une fuite de données est causée par au moins une des situations suivantes :
-
Lorsque une ou plusieurs caractéristiques de l'ensemble de données d'apprentissage peuvent être utilisées pour dériver la variable cible que vous tentez de prédire. Par exemple, votre cible est un champ Sales et l'une de vos caractéristiques est un champ Sales Tax calculé à partir de Sales.
-
Lorsque une ou plusieurs caractéristiques de l'ensemble de données d'apprentissage incluent des informations qui ne seraient pas connues au moment de la prédiction.
Dans le tableau suivant, la colonne Stage est une colonne en double de la colonne Stage (Binary) que nous voulons prédire. En incluant la caractéristique Stage dans l'ensemble de données d'apprentissage, nous fournirions la réponse au résultat anticipé, entraînant un score élevé pour notre modèle.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
Fuite de la cible
Une fuite de la cible est une forme de fuite de données. Il se produit une fuite de la cible lorsque des données de caractéristiques référencent des données de la cible qui pourraient être utilisées pour effectuer des prédictions. Les références, ou fuites, peuvent être directes ou indirectes.
Grâce à l'optimisation de modèle intelligente, AutoML identifie la fuite de la cible et l'empêche de s'introduire dans vos modèles. Les caractéristiques indiquant une fuite de la cible sont automatiquement détectées et retirées de l'apprentissage du modèle. Pour plus d'informations sur l'optimisation de modèle intelligente, consultez Optimisation de modèle intelligente.
Identification d'une fuite de données
Pour identifier une fuite de données, posez-vous des questions telles que les suivantes : « Aurons-nous les mêmes informations sur les enregistrements au moment où nous souhaiterons faire une prédiction ? » ou « Les enregistrements seront-ils les mêmes dans 30 jours ? ». N'oubliez pas que toutes les données de l'ensemble de données d'apprentissage doivent correspondre à la contrainte temporelle de votre question métier.
Une fois que vous avez formé un modèle, vous pouvez rechercher les indices suivants dans les métriques du modèle.
-
Scores élevés : le score est-il vraiment élevé ? Par exemple, le score F1 est-il supérieur à 85 ?
-
Importance des caractéristiques : une caractéristique est-elle beaucoup plus importante que toutes les autres ?
-
Score de rétention : le score de rétention est-il beaucoup plus faible que le score de validation croisée ?
Le tableau ci-dessous montre des exemples de caractéristiques courantes susceptibles de causer une fuite de données.
Cas d'utilisation | Cible |
Caractéristiques présentant potentiellement une fuite |
---|---|---|
Une opportunité de vente va-t-elle être conclue ? |
Conclusion (Oui ou Non) |
Phase, Date de conclusion, Détails de facturation, Commissions payées |
Prédiction du montant d'une transaction future |
Montant de la transaction suivante |
Taxes, Détails de la commande |
Un lead va-t-il se convertir en opportunité ? |
Conversion (Oui ou Non) |
Détails de l'opportunité, Date de conversion |
Allons-nous perdre un client ? |
Perte (Oui ou Non) |
Motif de la perte, Date de la perte, Durée statique du client, Température du client |
Un employé va-t-il donner sa démission ? |
Démission (Oui ou Non) |
Détails de l'entretien de démission, Date de démission, Informations de la lettre de démission |
Prévention de la fuite de données
La meilleure façon d'éviter la fuite de données consiste à utiliser le cadre structuré pour obtenir une question métier et un ensemble de données de bonne qualité. Pour plus d'informations, consultez Définition de questions d'apprentissage machine.