Optimisation de modèle intelligente

L'Optimisation de modèle intelligente permet d'affiner automatiquement les modèles dont vous effectuez l'apprentissage dans une expérimentation. Grâce à l'optimisation de modèle intelligente, les processus d'itération d'une sélection de caractéristiques et d'application de transformations avancées sont gérés à votre place. Avec un jeu de données d'apprentissage bien préparé incluant toutes les caractéristiques pertinentes, l'optimisation intelligente des modèles entraînera les modèles prêts au déploiement, dans une seule version.

En quoi consiste l'optimisation de modèle intelligente ?

L'optimisation de modèle intelligente automatise de nombreux aspects du processus d'affinement d'un modèle. Grâce à l'optimisation de modèle intelligente, vous pouvez rapidement effectuer l'apprentissage de modèles de haute qualité sans avoir à affiner manuellement la sélection de caractéristiques ni à ajuster vos données d'entrée à la main.

Utilisation de l'optimisation de modèle intelligente

L'optimisation de modèle intelligente est activée par défaut dans les nouvelles expérimentations ML avec les types suivants :

Classification binaire
Classification multiclasse
Régression

L'optimisation de modèle intelligente n'est pas applicable aux expérimentations de série temporelle.

Vous pouvez activer ou désactiver l'optimisation de modèle intelligente pour chaque version de l'expérimentation que vous exécutez.

Une fois que vous avez exécuté une version d'expérimentation avec l'optimisation intelligente activée, vous pouvez consulter les résultats de l'optimisation dans le Résumé de l'apprentissage du modèle. Ce résumé est affiché dans l'onglet Modèles sous Informations relatives au modèle. Survolez les termes soulignés à l'aide du curseur pour afficher une infobulle contenant une description détaillée.

Le Résumé de l'apprentissage du modèle est différent pour chaque modèle dont vous effectuez l'apprentissage dans une version d'expérimentation.

Fonctionnement de l'optimisation de modèle intelligente

Grâce à l'optimisation de modèle intelligente :

Il est possible d'effectuer l'apprentissage de davantage de modèles qu'avec l'optimisation manuelle. La sélection des caractéristiques s'effectue au niveau du modèle. Cela signifie que, contrairement à l'optimisation manuelle, chaque modèle d'une version peut avoir une sélection de caractéristiques différente.
Outre le prétraitement automatique appliqué par défaut à tous les modèles, les données d'apprentissage sont traitées à l'aide de plusieurs transformations avancées. Ces transformations permettent de s'assurer que vos données se présentent dans un format optimal pour les algorithmes d'apprentissage automatique.
Pour l'assurance qualité, l'apprentissage d'un modèle de référence – un modèle dont l'apprentissage est effectué sur l'ensemble de caractéristiques complet que vous avez configuré pour la version – est tout de même effectué. Cela permet de vérifier que l'optimisation intelligente améliore effectivement les scores des modèles.
Pour les jeux de données d'apprentissage plus volumineux, l'apprentissage des modèles est effectué sur une variété de ratios d'échantillonnage. Cela accélère le processus d'apprentissage. Pour plus d'informations, consultez Échantillonnage des données d'apprentissage.

Échantillonnage des données d'apprentissage

Lorsque vous effectuez l'apprentissage de modèles contenant une grande quantité de données, Qlik Predict utilise l'échantillonnage pour effectuer l'apprentissage des modèles sur une variété de sous-ensembles (ratios d'échantillonnage) du jeu de données d'origine. L'échantillonnage permet d'accélérer le processus d'apprentissage. Au début de l'apprentissage, l'apprentissage des modèles s'effectue sur un petit ratio d'échantillonnage. À mesure que l'apprentissage se poursuit, l'apprentissage des modèles s'effectue progressivement sur des portions plus importantes des données. Pour finir, l'apprentissage des modèles s'effectue sur le jeu de données complet (un ratio d'échantillonnage de 100 %).

Lors de l'analyse des données d'apprentissage du modèle, les modèles dont l'apprentissage a été effectué avec moins de 100 % du jeu de données d'apprentissage sont masqués de certaines vues.

Traitement appliqué lors de l'optimisation de modèle intelligente

Le Résumé de l'apprentissage du modèle montre comment les données d'apprentissage ont été traitées par l'optimisation de modèle intelligente. Les sections suivantes contiennent plus de détails sur chacun des éléments figurant dans le journal.

Le traitement appliqué peut varier en fonction du modèle.

Graphique Résumé de l'apprentissage d'un modèle dont l'apprentissage a été effectué avec l'optimisation intelligente. — Graphique Résumé de l'apprentissage du modèle d'un modèle, affiché dans l'onglet Modèles

Sélection de caractéristiques

L'optimisation de modèle intelligente permet d'affiner vos modèles en abandonnant les caractéristiques susceptibles de réduire les performances prédictives. Lors de l'optimisation de modèle intelligente, il est possible qu'une caractéristique soit exclue pour l'une des raisons suivantes :

Fuite de la cible : la caractéristique est soupçonnée d'être affectée par une fuite de la cible. Les caractéristiques affectées par une fuite de la cible incluent des informations sur la colonne cible que vous tentez de prédire. Par exemple, la caractéristique est directement dérivée de la cible ou inclut des informations qui n'auraient pas été connues au moment de la prédiction. Les caractéristiques qui causent une fuite de la cible peuvent vous donner une mauvaise impression d'assurance quant aux performances du modèle. Dans les prédictions dans le monde réel, elles sont la cause des très mauvaises performances du modèle.
Importance basse de permutation : la fonction n'a pas beaucoup d'influence, voire aucune, sur les prédictions du modèle. L'exclusion de ces caractéristiques améliore les performances du modèle en réduisant les parasites statistiques.
Fortement corrélée : la caractéristique est fortement corrélée avec une ou plusieurs autres caractéristiques de l'expérimentation. Les caractéristiques qui sont trop corrélées ne sont pas adaptées pour être utilisées dans des modèles d'apprentissage.

Dans l'onglet Données de l'expérimentation, vous pouvez voir des informations sur les caractéristiques exclues pour chaque modèle. Les Informations font également référence aux caractéristiques exclues en dehors du processus d'optimisation de modèle intelligente. Pour plus de renseignements sur chaque information, consultez Interprétation des informations analytiques d'un jeu de données.

Transformations des caractéristiques

L'optimisation de modèle intelligente applique un certain nombre de transformations techniques au niveau des caractéristiques. Ces transformations traitent vos données d'apprentissage afin qu'elles puissent être utilisées plus efficacement pour créer un modèle d'apprentissage automatique fiable. Les transformations des caractéristiques sont automatiquement appliquées en fonction des besoins. Le Résumé de l'apprentissage du modèle, vous indique quand des transformations des caractéristiques sont appliquées ainsi que les caractéristiques affectées.

Transformation de puissance

Les données des caractéristiques contiennent souvent naturellement des distributions présentant un certain degré d'asymétrie et d'écart par rapport à une distribution normale. Avant d'effectuer l'apprentissage d'un modèle, il peut être utile d'appliquer un traitement aux données pour normaliser les distributions de valeurs si elles semblent trop asymétriques. Ce traitement permet de réduire les biais et d'identifier les valeurs hors norme.

Grâce à l'optimisation de modèle intelligente, les caractéristiques numériques dépassant un seuil d'asymétrie spécifique sont transformées de sorte à présenter une distribution plus normale (ou qui ressemble plus à la normale) via des transformations de puissance. Plus précisément, on utilise la transformation de puissance de Yeo-Johnson.

Compartimentage des caractéristiques numériques

Certaines caractéristiques numériques peuvent contenir des tendances et des distributions qui ne sont pas faciles à traiter par les algorithmes d'apprentissage automatique. Grâce à l'optimisation de modèle intelligente, ce problème est en partie résolu via l'organisation des données de certaines caractéristiques numériques dans différents compartiments en fonction de leurs plages de valeurs. Le compartimentage est effectué de sorte à permettre la transformation des caractéristiques en caractéristiques catégoriques.

Une fois le compartimentage terminé, un encodage one-hot est appliqué aux nouvelles caractéristiques catégoriques et celles-ci sont utilisées dans l'apprentissage. Pour plus d'informations l'encodage one-hot, consultez Encodage catégorique.

Pondération et échantillonnage au niveau des lignes

Détection et traitement des anomalies

Les anomalies sont des valeurs de données qui apparaissent en dehors de la plage dans laquelle on pourrait raisonnablement s'attendre à ce qu'elles se situent. Il n'est pas rare que vos données d'apprentissage contiennent des valeurs hors norme. Certaines anomalies peuvent même être souhaitées pour refléter les possibilités du monde réel. Dans d'autres cas, les anomalies peuvent interférer avec l'apprentissage d'un modèle fiable.

Grâce à l'optimisation de modèle intelligente, Qlik Predict identifie les anomalies potentielles. Les lignes dans lesquelles apparaissent les valeurs hors norme sont alors traitées par un système de pondération optimisé par un algorithme. Si une valeur est fortement soupçonnée d'être une anomalie, le système de pondération réduit l'influence de la ligne correspondante dans les données d'apprentissage sur le modèle.

Après l'apprentissage de votre modèle, vous êtes informé du pourcentage de lignes du jeu de données d'apprentissage d'origine qui ont été traitées comme des données hors norme.

Pour plus d'informations, consultez Détection et traitement des anomalies.

Équilibrage de classes

Dans votre jeu de données d'apprentissage, il est possible qu'il existe plus d'occurrences d'une valeur (classe) donnée que d'autres. Ce phénomène est connu sous le nom de déséquilibre des classes. Lorsque vos données présentent un déséquilibre entre les classes, les modèles qui en résultent en apprennent davantage sur la classe majoritaire que sur la classe minoritaire, ce qui affecte l'exactitude des prédictions.

Grâce à l'optimisation de modèle intelligente, Qlik Predict effectue un équilibrage automatique des classes pour les modèles de classification binaire. Le déséquilibre entre les classes est détecté en comparant la distribution des valeurs des deux classes de la colonne cible. Plus précisément, cela est effectué lorsque le ratio entre les deux classes est comme suit :

95 % (ou plus) des lignes contiennent une classe
5 % (ou moins) des lignes contiennent l'autre classe

Lors de l'équilibrage des classes, les données d'apprentissage sont suréchantillonnées afin d'améliorer la distribution des classes. Le processus est itératif : un certain nombre de ratios de sortie différents sont testés afin de trouver l'équilibre optimal pour garantir les performances du modèle.

Après le suréchantillonnage, le jeu de données suréchantillonné est utilisé pour effectuer l'apprentissage des modèles dans la version d'expérimentation.

Pour des informations plus générales sur l'équilibrage des classes, consultez Équilibrage de classes.

Désactivation de l'optimisation intelligente

Si l'optimisation intelligente est désactivée, vous optimisez l'apprentissage manuellement. L'optimisation manuelle peut être utile si vous avez besoin de plus de contrôle sur le processus d'apprentissage. En particulier, vous pouvez souhaiter exécuter une version avec l'optimisation de modèle intelligente, puis désactiver le paramètre si vous devez apporter quelques petits ajustements manuels.

L'optimisation manuelle n'est pas disponible dans les expérimentations de série temporelle.

Procédez comme suit :

Dans une expérimentation, cliquez sur Afficher la configuration.

Le panneau Configuration de l'expérimentation s'ouvre.
Si vous avez déjà exécuté au moins une version de l'expérimentation, cliquez sur Créer une nouvelle version.
Dans le panneau, développez Optimisation du modèle.
Passez de Intelligente à Manuelle.

Considérations

Si vous utilisez l'optimisation de modèle intelligente, tenez compte des points suivants :

L'utilisation de l'optimisation de modèle intelligente ne garantit pas que votre apprentissage produira des modèles de grande qualité. Les phases de préparation du jeu de données et de configuration de l'expérimentation sont elles aussi essentielles pour produire des modèles fiables. Si votre jeu de données n'est pas bien préparé ou s'il manque des caractéristiques clés à votre configuration, les performances de vos modèles ne sont pas garanties dans des cas d'utilisation en production. Pour plus d'informations sur ces phases, consultez :
- Préparation de votre jeu de données à l'apprentissage
- Configuration d'expérimentations
Lorsque l'optimisation de modèle intelligente est activée pour une version, chaque modèle de cette version aura un ensemble distinct de caractéristiques incluses. En revanche, tous les modèles d'une version dont l'apprentissage est effectué via l'optimisation manuelle auront le même ensemble de caractéristiques incluses.
L'optimisation de modèle intelligente utilise uniquement les caractéristiques et algorithmes que vous avez inclus dans la configuration de la version.

Optimisation des hyperparamètres

L'optimisation des hyperparamètres n'est pas disponible lorsque l'optimisation de modèle intelligente est activée. Pour activer l'optimisation des hyperparamètres, vous devez définir l'optimisation de modèle sur Manuelle.

Pour plus d'informations, consultez Optimisation des hyperparamètres.

Exemple

Pour un exemple montrant les avantages de l'optimisation de modèle intelligente, consultez Didacticiel – Génération et visualisation des données de prédiction.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici