Accéder au contenu principal Passer au contenu complémentaire

Fuite de données

Une fuite de données signifie que les données utilisées pour former un algorithme d'apprentissage machine incluent les informations que vous tentez de prédire. Cela peut entraîner le modèle à se montrer plus performant lors de l'apprentissage qu'en conditions réelles, créant une fausse confiance quant aux performances du modèle. Vous devez apprendre à identifier et à prévenir la fuite de données afin d'obtenir des prédictions fiables.

Il existe deux formes de fuite de données :

  • Lorsque une ou plusieurs caractéristiques de l'ensemble de données d'apprentissage peuvent être utilisées pour dériver la variable cible que vous tentez de prédire.

  • Lorsque une ou plusieurs caractéristiques de l'ensemble de données d'apprentissage incluent des informations qui ne seraient pas connues au moment de la prédiction.

Dans le tableau suivant, la colonne Stage (Phase) est une colonne doublon de la colonne Stage (Binary) (Phase (Binaire)) que nous voulons prédire. En incluant la caractéristique Stage dans l'ensemble de données d'apprentissage, nous fournirions la réponse au résultat anticipé, entraînant un score élevé pour notre modèle.

Tableau avec la « colonne qui fuit » Stage (Phase) contenant des informations sur la colonne cible Stage (Binary) (Phase (Binaire))

Tableau contenant des échantillons de données.

Identification d'une fuite de données

Pour identifier une fuite de données, posez-vous des questions telles que les suivantes : « Aurons-nous les mêmes informations sur les enregistrements au moment où nous souhaiterons faire une prédiction ? » ou « Les enregistrements seront-ils les mêmes dans 30 jours ? ». N'oubliez pas que toutes les données de l'ensemble de données d'apprentissage doivent correspondre à la contrainte temporelle de votre question métier.

Une fois que vous avez formé un modèle, vous pouvez rechercher les indices suivants dans les métriques du modèle.

  • Scores élevés : Le score est-il vraiment élevé ? Par exemple, le score F1 est-il supérieur à 85 ?

  • Importance des caractéristiques : Une caractéristique est-elle beaucoup plus importante que toutes les autres ?

  • Score de rétention : Le score de rétention est-il beaucoup plus faible que le score de validation croisée ?

Le tableau ci-dessous montre des exemples de caractéristiques courantes susceptibles de causer une fuite de données.

Cas d'utilisation Cible

Caractéristiques présentant potentiellement une fuite

Une opportunité de vente va-t-elle être conclue ?

Conclusion (Oui ou Non)

Phase, Date de conclusion, Détails de facturation, Commissions payées

Prédiction du montant d'une transaction future

Montant de la transaction suivante

Taxes, Détails de la commande

Un lead va-t-il se convertir en opportunité ?

Conversion (Oui ou Non)

Détails de l'opportunité, Date de conversion

Allons-nous perdre un client ?

Perte (Oui ou Non)

Motif de la perte, Date de la perte, Durée statique du client, Température du client

Un employé va-t-il donner sa démission ?

Démission (Oui ou Non)

Détails de l'entretien de démission, Date de démission, Informations de la lettre de démission

Prévention de la fuite de données

La meilleure façon d'éviter la fuite de données consiste à utiliser le cadre structuré pour obtenir une question métier et un ensemble de données de bonne qualité. Pour plus d'informations, voir Définition de questions d'apprentissage machine.

Note ConseilSi vous avez identifié une colonne qui fuit et qui ne devrait pas être utilisée dans l'apprentissage du modèle, vous pouvez tout de même la conserver dans l'ensemble de données. Il vous suffit d'exclure cette caractéristique des données d'apprentissage de votre expérimentation d'apprentissage machine.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !