Données de rétention et validation croisée
L'un des plus gros défis de l'analyse prédictive consiste à deviner les performances d'un modèle formé sur des données qu'il n'a encore jamais rencontrées. En d'autres termes, dans quelle mesure le modèle a appris les véritables patterns au lieu de se contenter de mémoriser les données d'apprentissage. Les données de rétention et la validation croisée sont des techniques efficaces pour s'assurer que le modèle ne fait pas que mémoriser, mais qu'il apprend effectivement des patterns généralisés.
Test des modèles pour faire la distinction entre mémorisation et généralisation
Se demander dans quelle mesure un modèle est performant dans le monde réel, cela revient à se demander si le modèle mémorise ou généralise. La mémorisation consiste à se rappeler parfaitement ce qui s'est produit dans le passé. Même si un modèle qui mémorise peut présenter des scores élevés, lors de son apprentissage initial, l'exactitude prédictive diminuera considérablement lorsqu'il sera appliqué à de nouvelles données. Ce que nous attendons d'un modèle, c'est plutôt qu'il généralise. La généralisation consiste à apprendre et à appliquer des patterns généraux. En apprenant les véritables patterns plus larges des données d'apprentissage, un modèle généralisé sera capable d'effectuer des prédictions de qualité équivalente sur de nouvelles données qu'il n'a encore jamais rencontrées.
Rétention automatique des données
Une rétention est constituée de données sélectionnées de manière aléatoire, qui sont « masquées » au modèle pendant son apprentissage, puis utilisées pour évaluer le modèle. La rétention simule les performances du modèle sur les prédictions futures en générant des métriques d'exactitude sur les données non utilisées lors de l'apprentissage. C'est comme si nous avions créé un modèle, comme si nous l'avions déployé et que nous surveillions ses prédictions par rapport à ce qui s'est vraiment passé, sans avoir à attendre d'observer ces prédictions.
Validation croisée
La pratique de la validation croisée consiste à prendre un ensemble de données et à le diviser de manière aléatoire en un certain nombre de segments uniformes, appelés plis. L'algorithme d'apprentissage machine est formé sur tous les plis, sauf un. La validation croisée teste ensuite chaque pli par rapport à un modèle formé sur tous les autres plis. Cela signifie que chaque modèle formé est testé sur un segment des données qu'il n'a encore jamais rencontré. Le processus est répété, un pli différent étant masqué lors de l'apprentissage, puis testé, jusqu'à ce que tous les plis aient été utilisés exactement une fois comme test et formés lors de toutes les autres itérations.
Le résultat de la validation croisée est un ensemble de métriques de test qui fournissent une projection raisonnable de l'exactitude avec laquelle le modèle formé sera capable de réaliser des prédictions sur des données qu'il n'a encore jamais rencontrées.
Fonctionnement de la rétention et de la validation croisée automatiques
AutoML utilise la validation croisée à cinq plis lors de l'apprentissage du modèle pour simuler les performances du modèle. Le modèle est ensuite testé sur une rétention séparée des données d'apprentissage. Cela génère des métriques d'évaluation qui vous permettent d'évaluer et de comparer les performances de différents algorithmes.
-
Avant le début de l'apprentissage de l'expérimentation, toutes les données de l'ensemble de données dont la cible n'est pas nulle sont mélangées de manière aléatoire. 20 % de l'ensemble de données sont extraits comme données de rétention. Les 80 % restants de l'ensemble de données sont utilisés pour former le modèle via la validation croisée.
-
Pour préparer l'ensemble de données à la validation croisée, ce dernier est divisé en cinq blocs (plis) aléatoires. Le modèle est ensuite formé cinq fois, en « masquant » chaque fois un cinquième des données, différent des autres, pour tester les performances du modèle. Les métriques d'apprentissage sont générées lors de la validation croisée et correspondent à la moyenne des valeurs calculées.
-
Après l'apprentissage, le modèle est appliqué aux données de rétention. Étant donné que le modèle n'a pas rencontré les données de rétention lors de l'apprentissage (contrairement aux données de validation croisée), ces données sont idéales pour valider les performances d'apprentissage du modèle. Les métriques de rétention sont générées lors de cette évaluation finale du modèle.
Pour plus d'informations sur les métriques utilisées pour analyser les performances du modèle, voir Examen des modèles.