Accéder au contenu principal Passer au contenu complémentaire

Données de rétention et validation croisée

L'un des plus gros défis de l'analyse prédictive consiste à deviner les performances d'un modèle formé sur des données qu'il n'a encore jamais rencontrées. En d'autres termes, dans quelle mesure le modèle a appris les véritables patterns au lieu de se contenter de mémoriser les données d'apprentissage. Les données de rétention et la validation croisée sont des techniques efficaces pour s'assurer que le modèle ne fait pas que mémoriser, mais qu'il apprend effectivement des patterns généralisés.

Test des modèles pour faire la distinction entre mémorisation et généralisation

Se demander dans quelle mesure un modèle est performant dans le monde réel, cela revient à se demander si le modèle mémorise ou généralise. La mémorisation consiste à se rappeler parfaitement ce qui s'est produit dans le passé. Même si un modèle qui mémorise peut présenter des scores élevés, lors de son apprentissage initial, l'exactitude prédictive diminuera considérablement lorsqu'il sera appliqué à de nouvelles données. Ce que nous attendons d'un modèle, c'est plutôt qu'il généralise. La généralisation consiste à apprendre et à appliquer des patterns généraux. En apprenant les véritables patterns plus larges des données d'apprentissage, un modèle généralisé sera capable d'effectuer des prédictions de qualité équivalente sur de nouvelles données qu'il n'a encore jamais rencontrées.

Rétention automatique des données

Une rétention est constituée de données sélectionnées de manière aléatoire, qui sont « masquées » au modèle pendant son apprentissage, puis utilisées pour évaluer le modèle. La rétention simule les performances du modèle sur les prédictions futures en générant des métriques d'exactitude sur les données non utilisées lors de l'apprentissage. C'est comme si nous avions créé un modèle, comme si nous l'avions déployé et que nous surveillions ses prédictions par rapport à ce qui s'est vraiment passé, sans avoir à attendre d'observer ces prédictions.

L'ensemble de données est divisé en données d'apprentissage et en données de rétention

Ratio de données d'apprentissage et de données de rétention.

Validation croisée

La pratique de la validation croisée consiste à prendre un ensemble de données et à le diviser de manière aléatoire en un certain nombre de segments uniformes, appelés plis. L'algorithme d'apprentissage machine est formé sur tous les plis, sauf un. La validation croisée teste ensuite chaque pli par rapport à un modèle formé sur tous les autres plis. Cela signifie que chaque modèle formé est testé sur un segment des données qu'il n'a encore jamais rencontré. Le processus est répété, un pli différent étant masqué lors de l'apprentissage, puis testé, jusqu'à ce que tous les plis aient été utilisés exactement une fois comme test et formés lors de toutes les autres itérations.

Les données d'apprentissage sont divisées en cinq plis. Lors de chaque itération, un pli différent est mis de côté pour être utilisé comme données de test.

Données d'apprentissage divisées en cinq plis et itérées cinq fois.

Le résultat de la validation croisée est un ensemble de métriques de test qui fournissent une projection raisonnable de l'exactitude avec laquelle le modèle formé sera capable de réaliser des prédictions sur des données qu'il n'a encore jamais rencontrées.

Fonctionnement de la rétention et de la validation croisée automatiques

AutoML utilise la validation croisée à cinq plis lors de l'apprentissage du modèle pour simuler les performances du modèle. Le modèle est ensuite testé sur une rétention séparée des données d'apprentissage. Cela génère des métriques d'évaluation qui vous permettent d'évaluer et de comparer les performances de différents algorithmes.

  1. Avant le début de l'apprentissage de l'expérimentation, toutes les données de l'ensemble de données dont la cible n'est pas nulle sont mélangées de manière aléatoire. 20 % de l'ensemble de données sont extraits comme données de rétention. Les 80 % restants de l'ensemble de données sont utilisés pour former le modèle via la validation croisée.

  2. Pour préparer l'ensemble de données à la validation croisée, ce dernier est divisé en cinq blocs (plis) aléatoires. Le modèle est ensuite formé cinq fois, en « masquant » chaque fois un cinquième des données, différent des autres, pour tester les performances du modèle. Les métriques d'apprentissage sont générées lors de la validation croisée et correspondent à la moyenne des valeurs calculées.

  3. Après l'apprentissage, le modèle est appliqué aux données de rétention. Étant donné que le modèle n'a pas rencontré les données de rétention lors de l'apprentissage (contrairement aux données de validation croisée), ces données sont idéales pour valider les performances d'apprentissage du modèle. Les métriques de rétention sont générées lors de cette évaluation finale du modèle.

Pour plus d'informations sur les métriques utilisées pour analyser les performances du modèle, voir Examen des modèles.

Les données d'apprentissage sont utilisées lors de la validation croisée à cinq plis pour générer un modèle. Après l'apprentissage, le modèle est évalué à l'aide des données de rétention.

Les données d'apprentissage sont utilisées pour les données de validation croisée et de rétention pour l'évaluation finale du modèle.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !