Optimisation de modèle intelligente
L'optimisation de modèle intelligente permet d'affiner automatiquement les modèles dont vous effectuez l'apprentissage dans une expérimentation. Grâce à l'optimisation de modèle intelligente, le processus d'itération d'une sélection de caractéristiques et d'application de transformations avancées est géré à votre place. Avec un jeu de données d'apprentissage bien préparé incluant toutes les caractéristiques pertinentes, l'optimisation intelligente des modèles entraînera les modèles prêts au déploiement, dans une seule version.
En quoi consiste l'optimisation de modèle intelligente ?
L'optimisation de modèle intelligente automatise de nombreux aspects du processus d'affinement d'un modèle. Grâce à l'optimisation de modèle intelligente, vous pouvez rapidement effectuer l'apprentissage de modèles de haute qualité sans avoir à affiner manuellement la sélection de caractéristiques ni à ajuster vos données d'entrée à la main.
Utilisation de l'optimisation de modèle intelligente
L'optimisation de modèle intelligente est activée par défaut dans les nouvelles expérimentations ML. Vous pouvez l'activer ou la désactiver pour chaque version de l'expérimentation que vous exécutez.
Une fois que vous avez exécuté une version d'expérimentation avec l'optimisation intelligente activée, vous pouvez consulter les résultats de l'optimisation dans le Résumé de l'apprentissage du modèle. Ce résumé est affiché dans l'onglet Modèles sous Informations relatives au modèle. Survolez les termes soulignés à l'aide du curseur pour afficher une infobulle contenant une description détaillée.
Le Résumé de l'apprentissage du modèle est différent pour chaque modèle dont vous effectuez l'apprentissage dans une version d'expérimentation.
Fonctionnement de l'optimisation de modèle intelligente
Grâce à l'optimisation de modèle intelligente :
Il est possible d'effectuer l'apprentissage de davantage de modèles qu'avec l'optimisation manuelle. La sélection des caractéristiques s'effectue au niveau du modèle. Cela signifie que, contrairement à l'optimisation manuelle, chaque modèle d'une version peut avoir une sélection de caractéristiques différente.
Outre le prétraitement automatique appliqué par défaut à tous les modèles, les données d'apprentissage sont traitées à l'aide de plusieurs transformations avancées. Ces transformations permettent de s'assurer que vos données se présentent dans un format optimal pour les algorithmes d'apprentissage automatique.
Pour l'assurance qualité, l'apprentissage d'un modèle de référence – un modèle dont l'apprentissage est effectué sur l'ensemble de caractéristiques complet que vous avez configuré pour la version – est tout de même effectué. Cela permet de vérifier que l'optimisation intelligente améliore effectivement les scores des modèles.
Pour les jeux de données d'apprentissage plus volumineux, l'apprentissage des modèles est effectué sur une variété de ratios d'échantillonnage. Cela accélère le processus d'apprentissage. Pour plus d'informations, consultez Échantillonnage des données d'apprentissage.
Échantillonnage des données d'apprentissage
Lorsque vous effectuez l'apprentissage de modèles contenant une grande quantité de données, AutoML utilise l'échantillonnage pour effectuer l'apprentissage des modèles sur une variété de sous-ensembles (ratios d'échantillonnage) du jeu de données d'origine. L'échantillonnage permet d'accélérer le processus d'apprentissage. Au début de l'apprentissage, l'apprentissage des modèles s'effectue sur un petit ratio d'échantillonnage. À mesure que l'apprentissage se poursuit, l'apprentissage des modèles s'effectue progressivement sur des portions plus importantes des données. Pour finir, l'apprentissage des modèles s'effectue sur le jeu de données complet (un ratio d'échantillonnage de 100 %).
Lors de l'analyse des données d'apprentissage du modèle, les modèles dont l'apprentissage a été effectué avec moins de 100 % du jeu de données d'apprentissage sont masqués de certaines vues.
Traitement appliqué lors de l'optimisation de modèle intelligente
Le Résumé de l'apprentissage du modèle montre comment les données d'apprentissage ont été traitées par l'optimisation de modèle intelligente. Les sections suivantes contiennent plus de détails sur chacun des éléments figurant dans le journal.
Sélection de caractéristiques
L'optimisation de modèle intelligente permet d'affiner vos modèles en abandonnant les caractéristiques susceptibles de réduire les performances prédictives. Lors de l'optimisation de modèle intelligente, il est possible qu'une caractéristique soit exclue pour l'une des raisons suivantes :
Fuite de la cible : la caractéristique est soupçonnée d'être affectée par une fuite de la cible. Les caractéristiques affectées par une fuite de la cible incluent des informations sur la colonne cible que vous tentez de prédire. Par exemple, la caractéristique est directement dérivée de la cible ou inclut des informations qui n'auraient pas été connues au moment de la prédiction. Les caractéristiques qui causent une fuite de la cible peuvent vous donner une mauvaise impression d'assurance quant aux performances du modèle. Dans les prédictions dans le monde réel, elles sont la cause des très mauvaises performances du modèle.
Importance basse de permutation : la fonction n'a pas beaucoup d'influence, voire aucune, sur les prédictions du modèle. L'exclusion de ces caractéristiques améliore les performances du modèle en réduisant les parasites statistiques.
Fortement corrélée : la caractéristique est fortement corrélée avec une ou plusieurs autres caractéristiques de l'expérimentation. Les caractéristiques qui sont trop corrélées ne sont pas adaptées pour être utilisées dans des modèles d'apprentissage.
Dans l'onglet Données de l'expérimentation, vous pouvez voir des informations sur les caractéristiques exclues pour chaque modèle. Les Informations font également référence aux caractéristiques exclues en dehors du processus d'optimisation de modèle intelligente. Pour plus de renseignements sur chaque information, consultez Interprétation des informations analytiques d'un jeu de données.
Transformations des caractéristiques
L'optimisation de modèle intelligente applique un certain nombre de transformations techniques au niveau des caractéristiques. Ces transformations traitent vos données d'apprentissage afin qu'elles puissent être utilisées plus efficacement pour créer un modèle d'apprentissage automatique fiable. Les transformations des caractéristiques sont automatiquement appliquées en fonction des besoins. Le Résumé de l'apprentissage du modèle, vous indique quand des transformations des caractéristiques sont appliquées ainsi que les caractéristiques affectées.
Transformation de puissance
Les données des caractéristiques contiennent souvent naturellement des distributions présentant un certain degré d'asymétrie et d'écart par rapport à une distribution normale. Avant d'effectuer l'apprentissage d'un modèle, il peut être utile d'appliquer un traitement aux données pour normaliser les distributions de valeurs si elles semblent trop asymétriques. Ce traitement permet de réduire les biais et d'identifier les valeurs hors norme.
Grâce à l'optimisation de modèle intelligente, les caractéristiques numériques dépassant un seuil d'asymétrie spécifique sont transformées de sorte à présenter une distribution plus normale (ou qui ressemble plus à la normale) via des transformations de puissance. Plus précisément, on utilise la transformation de puissance de Yeo-Johnson.
Compartimentage des caractéristiques numériques
Certaines caractéristiques numériques peuvent contenir des tendances et des distributions qui ne sont pas faciles à traiter par les algorithmes d'apprentissage automatique. Grâce à l'optimisation de modèle intelligente, ce problème est en partie résolu via l'organisation des données de certaines caractéristiques numériques dans différents compartiments en fonction de leurs plages de valeurs. Le compartimentage est effectué de sorte à permettre la transformation des caractéristiques en caractéristiques catégoriques.
Une fois le compartimentage terminé, un encodage one-hot est appliqué aux nouvelles caractéristiques catégoriques et celles-ci sont utilisées dans l'apprentissage. Pour plus d'informations l'encodage one-hot, consultez Encodage catégorique.
Détection et traitement des anomalies
Les anomalies sont des valeurs de données qui apparaissent en dehors de la plage dans laquelle on pourrait raisonnablement s'attendre à ce qu'elles se situent. Il n'est pas rare que vos données d'apprentissage contiennent des valeurs hors norme. Certaines anomalies peuvent même être souhaitées pour refléter les possibilités du monde réel. Dans d'autres cas, les anomalies peuvent interférer avec l'apprentissage d'un modèle fiable.
Grâce à l'optimisation de modèle intelligente, AutoML identifie les anomalies potentielles. Les lignes dans lesquelles apparaissent les valeurs hors norme sont alors traitées par un système de pondération optimisé par un algorithme. Si une valeur est fortement soupçonnée d'être une anomalie, le système de pondération réduit l'influence de la ligne correspondante dans les données d'apprentissage sur le modèle.
Après l'apprentissage de votre modèle, vous êtes informé du pourcentage de lignes du jeu de données d'apprentissage d'origine qui ont été traitées comme des données hors norme.
Pour plus d'informations, consultez Détection et traitement des anomalies.
Désactivation de l'optimisation intelligente
Si l'optimisation intelligente est désactivée, vous optimisez l'apprentissage manuellement. L'optimisation manuelle peut être utile si vous avez besoin de plus de contrôle sur le processus d'apprentissage. En particulier, vous pouvez souhaiter exécuter une version avec l'optimisation de modèle intelligente, puis désactiver le paramètre si vous devez apporter quelques petits ajustements manuels.
Procédez comme suit :
Dans une expérimentation, cliquez sur Afficher la configuration.
Le panneau Configuration de l'expérimentation s'ouvre.
Si vous avez déjà exécuté au moins une version de l'expérimentation, cliquez sur Nouvelle version.
Dans le panneau, développez Optimisation du modèle.
Passez de Intelligente à Manuelle.
Considérations
Si vous utilisez l'optimisation de modèle intelligente, tenez compte des points suivants :
L'utilisation de l'optimisation de modèle intelligente ne garantit pas que votre apprentissage produira des modèles de grande qualité. Les phases de préparation du jeu de données et de configuration de l'expérimentation sont elles aussi essentielles pour produire des modèles fiables. Si votre jeu de données n'est pas bien préparé ou s'il manque des caractéristiques clés à votre configuration, les performances de vos modèles ne sont pas garanties dans des cas d'utilisation en production. Pour plus d'informations sur ces phases, consultez :
Lorsque l'optimisation de modèle intelligente est activée pour une version, chaque modèle de cette version aura un ensemble distinct de caractéristiques incluses. En revanche, tous les modèles d'une version dont l'apprentissage est effectué via l'optimisation manuelle auront le même ensemble de caractéristiques incluses.
L'optimisation de modèle intelligente utilise uniquement les caractéristiques et algorithmes que vous avez inclus dans la configuration de la version.
Optimisation des hyperparamètres
L'optimisation des hyperparamètres n'est pas disponible lorsque l'optimisation de modèle intelligente est activée. Pour activer l'optimisation des hyperparamètres, vous devez définir l'optimisation de modèle sur Manuelle.
Pour plus d'informations, consultez Optimisation des hyperparamètres.
Exemple
Pour un exemple montrant les avantages de l'optimisation de modèle intelligente, consultez Exemple – Apprentissage de modèles avec l'apprentissage automatique automatisé.