Accéder au contenu principal Passer au contenu complémentaire

Fuite de données

Une fuite de données signifie que les données utilisées pour former un algorithme d'apprentissage automatique incluent les informations que vous tentez de prédire. Cela peut entraîner le modèle à se montrer plus performant lors de l'apprentissage qu'en conditions réelles, créant une fausse confiance quant aux performances du modèle. Vous devez apprendre à identifier et à prévenir la fuite de données afin d'obtenir des prédictions fiables.

En règle générale, une fuite de données est causée par au moins une des situations suivantes :

  • Lorsque une ou plusieurs caractéristiques de l'ensemble de données d'apprentissage peuvent être utilisées pour dériver la variable cible que vous tentez de prédire. Par exemple, votre cible est un champ Sales et l'une de vos caractéristiques est un champ Sales Tax calculé à partir de Sales.

  • Lorsque une ou plusieurs caractéristiques de l'ensemble de données d'apprentissage incluent des informations qui ne seraient pas connues au moment de la prédiction.

Dans le tableau suivant, la colonne Stage est une colonne en double de la colonne Stage (Binary) que nous voulons prédire. En incluant la caractéristique Stage dans l'ensemble de données d'apprentissage, nous fournirions la réponse au résultat anticipé, entraînant un score élevé pour notre modèle.

Tableau avec la « colonne qui fuit » Stage contenant des informations sur la colonne cible Stage (Binary)
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Fuite de la cible

Une fuite de la cible est une forme de fuite de données. Il se produit une fuite de la cible lorsque des données de caractéristiques référencent des données de la cible qui pourraient être utilisées pour effectuer des prédictions. Les références, ou fuites, peuvent être directes ou indirectes.

Grâce à l'optimisation de modèle intelligente, AutoML identifie la fuite de la cible et l'empêche de s'introduire dans vos modèles. Les caractéristiques indiquant une fuite de la cible sont automatiquement détectées et retirées de l'apprentissage du modèle. Pour plus d'informations sur l'optimisation de modèle intelligente, consultez Optimisation de modèle intelligente.

Identification d'une fuite de données

Pour identifier une fuite de données, posez-vous des questions telles que les suivantes : « Aurons-nous les mêmes informations sur les enregistrements au moment où nous souhaiterons faire une prédiction ? » ou « Les enregistrements seront-ils les mêmes dans 30 jours ? ». N'oubliez pas que toutes les données de l'ensemble de données d'apprentissage doivent correspondre à la contrainte temporelle de votre question métier.

Une fois que vous avez formé un modèle, vous pouvez rechercher les indices suivants dans les métriques du modèle.

  • Scores élevés : le score est-il vraiment élevé ? Par exemple, le score F1 est-il supérieur à 85 ?

  • Importance des caractéristiques : une caractéristique est-elle beaucoup plus importante que toutes les autres ?

  • Score de rétention : le score de rétention est-il beaucoup plus faible que le score de validation croisée ?

Le tableau ci-dessous montre des exemples de caractéristiques courantes susceptibles de causer une fuite de données.

Cas d'utilisation Cible

Caractéristiques présentant potentiellement une fuite

Une opportunité de vente va-t-elle être conclue ?

Conclusion (Oui ou Non)

Phase, Date de conclusion, Détails de facturation, Commissions payées

Prédiction du montant d'une transaction future

Montant de la transaction suivante

Taxes, Détails de la commande

Un lead va-t-il se convertir en opportunité ?

Conversion (Oui ou Non)

Détails de l'opportunité, Date de conversion

Allons-nous perdre un client ?

Perte (Oui ou Non)

Motif de la perte, Date de la perte, Durée statique du client, Température du client

Un employé va-t-il donner sa démission ?

Démission (Oui ou Non)

Détails de l'entretien de démission, Date de démission, Informations de la lettre de démission

Prévention de la fuite de données

La meilleure façon d'éviter la fuite de données consiste à utiliser le cadre structuré pour obtenir une question métier et un ensemble de données de bonne qualité. Pour plus d'informations, consultez Définition de questions d'apprentissage machine.

Note ConseilSi vous avez identifié une colonne qui fuit et qui ne devrait pas être utilisée dans l'apprentissage du modèle, vous pouvez tout de même la conserver dans l'ensemble de données. Il vous suffit d'exclure cette caractéristique des données d'apprentissage de votre expérimentation d'apprentissage automatique.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !