Affichage d'informations analytiques sur les données d'apprentissage
À mesure que vous ajoutez des données d'apprentissage et que vous exécutez des versions de l'apprentissage, vous pouvez accéder à des informations analytiques sur la manière dont les données sont traitées. Les Informations fournissent des renseignements sur la cible et les caractéristiques de l'expérimentation tels que les caractéristiques exclues, indisponibles ou chiffrées à l'aide d'un traitement spécial.
La colonne Informations figure dans l'onglet Données lorsque vous vous trouvez dans Vue Schéma. Des informations analytiques abrégées sont également disponibles dans la Vue Données. Les informations analytiques sont créées individuellement pour chaque modèle dont l'apprentissage est effectué au sein de l'expérimentation.
Des informations analytiques sont générées :
-
après que vous avez ajouté ou modifié des données d'apprentissage, mais que vous n'avez pas encore exécuté de versions d'expérimentation ;
-
après l'exécution de chaque version d'expérimentation. Un ensemble distinct d'informations analytiques est créé pour chaque modèle dont vous effectuez l'apprentissage.
Les informations analytiques peuvent être différentes avant et après l'exécution d'une version. Cela est dû au fait que lorsque l'apprentissage démarre, AutoML est en mesure de prétraiter vos données et de diagnostiquer davantage les problèmes de vos données. Pour plus d'informations, consultez Préparation et transformation automatiques des données.
Affichage des informations analytiques avant l'apprentissage
Avant d'exécuter une version de l'expérimentation, vous pouvez analyser les Informations pour voir comment les données d'apprentissage actuelles sont interprétées. Ces informations analytiques peuvent changer après l'exécution de la version.
Procédez comme suit :
Dans une expérimentation, assurez-vous d'avoir ajouté les données d'apprentissage à utiliser pour la version d'expérimentation.
Ouvrez l'onglet Données.
Assurez-vous de vous trouver dans la Vue Schéma.
Analysez la colonne Informations. Des infos-bulles fournissent un contexte supplémentaire sous-jacent aux informations analytiques. Pour plus d'explications sur la signification de chaque information analytique, consultez Interprétation des informations analytiques d'un jeu de données.
Affichage des informations analytiques d'un modèle
Une fois que les modèles ont terminé l'apprentissage d'une version d'expérimentation, sélectionnez un modèle et inspectez la manière dont les données ont été traitées.
Procédez comme suit :
Exécutez une version d'expérimentation, puis ouvrez l'onglet Données.
Sélectionnez un modèle dans la liste déroulante de la barre d'outils.
Assurez-vous de vous trouver dans la Vue Schéma.
Analysez la colonne Informations. Des infos-bulles fournissent un contexte supplémentaire sous-jacent aux informations analytiques. Pour plus d'explications sur la signification de chaque information analytique, consultez Interprétation des informations analytiques d'un jeu de données.
Interprétation des informations analytiques d'un jeu de données
Le tableau suivant fournit des renseignements plus détaillés sur les informations analytiques possibles susceptibles d'apparaître dans le schéma.
Information | Signification | Impact sur la configuration | Moment où l'information est déterminée | Références supplémentaires |
---|---|---|---|---|
Constant | La colonne contient la même valeur pour toutes les lignes. | La colonne ne peut pas être utilisée comme cible ni comme caractéristique incluse. | Avant et après l'exécution de la version | Cardinalité |
Encodage one-hot | Le type de caractéristique est catégorique et la colonne comporte moins de 14 valeurs uniques. | Aucun effet sur la configuration. | Avant et après l'exécution de la version | Encodage catégorique |
Impact encoded | Le type de caractéristique est catégorique et la colonne comporte au moins 14 valeurs uniques. | Aucun effet sur la configuration. | Avant et après l'exécution de la version | Encodage catégorique |
Cardinalité élevée | La colonne comporte un trop grand nombre de valeurs uniques et peut affecter négativement les performances du modèle si elle est utilisée comme caractéristique. | La colonne ne peut pas être utilisée comme cible. Elle sera automatiquement exclue en tant que caractéristique, mais elle peut tout de même être incluse, si nécessaire. | Avant et après l'exécution de la version | Cardinalité |
Données clairsemées | La colonne comporte un trop grand nombre de valeurs nulles. | La colonne ne peut pas être utilisée comme cible ni comme caractéristique incluse. | Avant et après l'exécution de la version | Imputation des valeurs nulles |
Classe sous-représentée | La colonne a une classe de moins de 10 lignes. | La colonne ne peut pas être utilisée comme cible, mais elle peut être incluse comme caractéristique. | Avant et après l'exécution de la version | - |
<nombre de> caractéristiques auto-conçues | La colonne est la caractéristique parente qui peut être utilisée pour générer des caractéristiques auto-conçues. | Si cette caractéristique parente est interprétée comme une caractéristique de date, elle est automatiquement supprimée de la configuration. Il est recommandé d'utiliser plutôt les caractéristiques de date auto-conçues qui peuvent être générées à partir de celle-ci. Il est possible d'outrepasser ce paramètre et d'inclure la caractéristique au lieu des caractéristiques auto-conçues. | Avant et après l'exécution de la version | Ingénierie automatique des caractéristiques |
Caractéristique auto-conçue | La colonne est une caractéristique auto-conçue qui peut être générée à partir d'une caractéristique de date parente, ou qui l'a été. Elle n'apparaissait pas dans le jeu de données d'origine. | Vous pouvez supprimer une ou plusieurs de ces caractéristiques auto-conçues pendant l'apprentissage de votre expérimentation. Si vous modifiez le type de caractéristique de la caractéristique parente en catégorique, toutes les caractéristiques auto-conçues sont supprimées. | Avant et après l'exécution de la version | Ingénierie automatique des caractéristiques |
Impossible de traiter comme date | La colonne inclut éventuellement des informations de date et d'heure, mais n'a pas pu être utilisée pour créer des caractéristiques de date auto-conçues. | La caractéristique est retirée de la configuration. Si des caractéristiques auto-conçues ont été précédemment générées à partir de cette caractéristique parente, elles sont supprimées des futures versions de l'expérimentation. Vous pouvez toujours utiliser la caractéristique dans l'expérimentation, mais vous devez changer son type de caractéristique en catégorique. | Après l'exécution de la version | Ingénierie des caractéristiques de date |
Texte libre possible | Il se peut que la colonne puisse être utilisée comme une caractéristique de type texte libre. | Le type de caractéristique Texte libre est attribué à la colonne. Vous devez exécuter une version d'expérimentation pour vérifier si la caractéristique peut être traitée sous forme de texte libre. | Avant l'exécution de la version | Traitement des données de type texte libre |
Texte libre | La colonne a été confirmée comme contenant un texte libre. Elle peut être traitée sous forme de texte libre. | Aucune configuration supplémentaire de la caractéristique n'est nécessaire. | Après l'exécution de la version | Traitement des données de type texte libre |
Impossible de traiter comme texte libre | Une analyse plus poussée confirme que la colonne ne peut pas être traitée sous forme de texte libre. | Vous devez désélectionner la caractéristique de la configuration pour la version d'expérimentation suivante. Sinon, si la caractéristique ne présente pas de forte cardinalité, vous pouvez remplacer le type de caractéristique par Catégorique. | Après l'exécution de la version | Traitement des données de type texte libre |
Fuite de la cible | La caractéristique est soupçonnée d'être affectée par une fuite de la cible. Si c'est le cas, cela inclut des informations sur la colonne cible que vous tentez de prédire. Les caractéristiques avec une fuite de la cible peuvent vous donner une mauvaise impression d'assurance quant aux performances du modèle. Dans les prédictions dans le monde réel, elles sont la cause des très mauvaises performances du modèle. | La caractéristique n'a pas été utilisée pour effectuer l'apprentissage du modèle. | Après l'exécution de la version | Fuite de données |
Importance basse de permutation | La fonction n'a pas beaucoup d'influence, voire aucune influence, sur les prédictions du modèle. L'exclusion de ces caractéristiques améliore les performances du modèle en réduisant les parasites statistiques. | La caractéristique n'a pas été utilisée pour effectuer l'apprentissage du modèle. | Après l'exécution de la version | Familiarisation avec le concept de permutation importance |
Fortement corrélée | La caractéristique est fortement corrélée avec une ou plusieurs autres caractéristiques de l'expérimentation. Le fait d'avoir des caractéristiques très corrélées les unes avec les autres réduit les performances du modèle. | La caractéristique n'a pas été utilisée pour effectuer l'apprentissage du modèle. La caractéristique avec laquelle elle est fortement corrélée n'a pas été exclue en raison d'une forte corrélation, mais peut l'avoir été pour une autre raison telle qu'une faible permutation importance. | Après l'exécution de la version | Corrélation |