Fuite de données

Une fuite de données signifie que les données utilisées pour former un algorithme d'apprentissage automatique incluent les informations que vous tentez de prédire. Cela peut entraîner le modèle à se montrer plus performant lors de l'apprentissage qu'en conditions réelles, créant une fausse confiance quant aux performances du modèle. Vous devez apprendre à identifier et à prévenir la fuite de données afin d'obtenir des prédictions fiables.

En règle générale, une fuite de données est causée par au moins une des situations suivantes :

Lorsque une ou plusieurs caractéristiques du jeu de données d'apprentissage peuvent être utilisées pour dériver la variable cible que vous tentez de prédire. Par exemple, votre cible est un champ Sales et l'une de vos caractéristiques est un champ Sales Tax calculé à partir de Sales.
Lorsque une ou plusieurs caractéristiques du jeu de données d'apprentissage incluent des informations qui ne seraient pas connues au moment de la prédiction.

Dans le tableau suivant, la colonne Stage est une colonne en double de la colonne Stage (Binary) que nous voulons prédire. En incluant la caractéristique Stage dans le jeu de données d'apprentissage, nous fournirions la réponse au résultat anticipé, entraînant un score élevé pour notre modèle.

Tableau avec la « colonne qui fuit » Stage contenant des informations sur la colonne cible Stage (Binary)
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Fuite de la cible

Une fuite de la cible est une forme de fuite de données. Il se produit une fuite de la cible lorsque des données de caractéristiques référencent des données de la cible qui pourraient être utilisées pour effectuer des prédictions. Les références, ou fuites, peuvent être directes ou indirectes.

Grâce à l'optimisation de modèle intelligente, Qlik Predict identifie la fuite de la cible et l'empêche de s'introduire dans vos modèles. Les caractéristiques indiquant une fuite de la cible sont automatiquement détectées et retirées de l'apprentissage du modèle. Pour plus d'informations sur l'optimisation de modèle intelligente, consultez Optimisation de modèle intelligente.

Identification d'une fuite de données

Pour identifier une fuite de données, posez-vous des questions telles que les suivantes : « Aurons-nous les mêmes informations sur les enregistrements au moment où nous souhaiterons faire une prédiction ? » ou « Les enregistrements seront-ils les mêmes dans 30 jours ? ». N'oubliez pas que toutes les données du jeu de données d'apprentissage doivent correspondre à la contrainte temporelle de votre question métier.

Une fois que vous avez formé un modèle, vous pouvez rechercher les indices suivants dans les métriques du modèle.

Scores élevés : le score est-il vraiment élevé ? Par exemple, le score F1 est-il supérieur à 85 ?
Importance des caractéristiques : une caractéristique est-elle beaucoup plus importante que toutes les autres ?
Score de rétention : le score de rétention est-il beaucoup plus faible que le score de validation croisée ?

Le tableau ci-dessous montre des exemples de caractéristiques courantes susceptibles de causer une fuite de données.

Cas d'utilisation	Cible	Caractéristiques présentant potentiellement une fuite
Une opportunité de vente va-t-elle être conclue ?	Conclusion (Oui ou Non)	Phase, Date de conclusion, Détails de facturation, Commissions payées
Prédiction du montant d'une transaction future	Montant de la transaction suivante	Taxes, Détails de la commande
Un lead va-t-il se convertir en opportunité ?	Conversion (Oui ou Non)	Détails de l'opportunité, Date de conversion
Allons-nous perdre un client ?	Perte (Oui ou Non)	Motif de la perte, Date de la perte, Durée statique du client, Température du client
Un employé va-t-il donner sa démission ?	Démission (Oui ou Non)	Détails de l'entretien de démission, Date de démission, Informations de la lettre de démission

Prévention de la fuite de données

La meilleure façon d'éviter la fuite de données consiste à utiliser le cadre structuré pour obtenir une question métier et un jeu de données de bonne qualité. Pour plus d'informations, consultez Définition de questions d'apprentissage automatique.

Si vous avez identifié une colonne qui fuit et qui ne devrait pas être utilisée dans l'apprentissage du modèle, vous pouvez tout de même la conserver dans le jeu de données. Il vous suffit d'exclure cette caractéristique des données d'apprentissage de votre expérimentation d'apprentissage automatique.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici