Détection et traitement des anomalies
La détection et le traitement des anomalies sont assurés par la fonction Optimisation de modèle intelligente. Grâce à ces fonctionnalités, Qlik AutoML peut gérer automatiquement les valeurs hors norme de vos données d'apprentissage via un traitement spécifique. Lors de l'apprentissage, les données hors norme de vos données d'apprentissage ne sont pas entièrement supprimées, mais traitées à l'aide d'un système de pondération optimisé par un algorithme.
Il est courant d'observer des valeurs hors norme, ou anomalies, dans presque tous les types de données qu'il est possible d'utiliser. Les anomalies sont des valeurs de données qui se situent en dehors de la plage prévue de manière conventionnelle à laquelle on peut s'attendre. Lors de l'apprentissage automatique de modèles, une certaine proportion d'anomalies peut être tolérée, voire souhaitable, pour refléter une déviation du monde réel. Toutefois, dans les cas extrêmes, les anomalies et les valeurs hors norme introduisent un biais/une déformation dans un modèle, réduisant ainsi sa fiabilité et son utilité.
Exemples
Toutes les anomalies ne doivent pas être traitées de la même manière et ne doivent pas toujours être vues comme des éléments à supprimer de vos données. Par exemple, si une anomalie de données est un phénomène naturellement possible, mais peu fréquent, qui peut être observé lors de la collecte de données, il peut être logique de souhaiter l'utiliser dans les modèles dont vous effectuez l'apprentissage. Les cas de fraude dans les transactions financières en sont un excellent exemple. Sur des millions de transactions, seule une poignée est susceptible d'être associée à une fraude. Suivant le problème à analyser et auquel faire face avec votre modèle, la probabilité de fraude dans les transactions quotidiennes peut être un élément à prendre en compte lors de la génération de prédictions.
Exemple d'anomalie que vous souhaiteriez probablement supprimer : un problème involontaire qui se produit lorsque vous collectez des données. Par exemple, imaginons que vous créiez un modèle qui sera utilisé pour prédire des phénomènes météorologiques. L'apprentissage du modèle implique les données d'un capteur qui surveille des métriques météorologiques, et une coupure d'électricité sans rapport avec le sujet entraîne la collecte de données erronées auprès du capteur. Ces données erronées peuvent être considérées comme des anomalies à supprimer avant de terminer l'apprentissage du modèle.
Comment Qlik AutoML traite-t-il les anomalies ?
La détection et le traitement des anomalies sont effectués lorsque vous procédez à l'apprentissage de modèles à l'aide de l'optimisation de modèle intelligente, qui est activée par défaut dans les nouvelles expérimentations.
On considère généralement que le traitement des anomalies s'effectue dans le cadre de deux processus distincts : la détection et l'apprentissage proprement dit du modèle.
Détection des anomalies
Lorsque vous exécutez une version de l'apprentissage, AutoML effectue plusieurs étapes avant de démarrer l'apprentissage du modèle. Cela inclut la classification des données, l'imputation des valeurs nulles et un certain nombre d'autres processus. La détection des anomalies s'effectue au cours de cette phase, et seulement lorsque l'optimisation de modèle intelligente est activée.
En termes techniques, Qlik AutoML utilise un algorithme basé sur un arbre de décision, l'algorithme de forêt d'isolement, pour détecter les anomalies et les valeurs hors norme dans vos données d'apprentissage. Lors de la phase de traitement des données dans le cadre de l'optimisation de modèle intelligente, chaque point de données du jeu de données (généralement connu sous le nom d'enregistrement) reçoit un score d'anomalie et est pondéré en fonction du degré de certitude du fait qu'il s'agisse ou non d'une anomalie.
Traitement des anomalies dans l'apprentissage des modèles
Après le traitement et la transformation de vos données en fonction des besoins, AutoML démarre l'apprentissage des modèles. Au cours de ce processus, les scores d'anomalie pondérés générés précédemment sont utilisés pour ajuster l'influence de chaque ligne sur le modèle. Par exemple, une ligne considérée comme très susceptible de contenir une anomalie reçoit un score d'influence faible sur l'apprentissage du modèle.
Ce système de notation pondérée permet à AutoML d'éviter d'ignorer des données et, au lieu de cela, réduit simplement l'impact des données hors norme sur le modèle.
Considérations
Malgré les fonctionnalités de détection des anomalies disponibles avec Qlik AutoML, cela ne signifie pas que n'importe quelles données peuvent être utilisées pour effectuer l'apprentissage d'un modèle de haute qualité. Si vos données contiennent des proportions inhabituellement élevées d'informations erronées ou corrompues, il se peut que la détection des anomalies ne puisse pas résoudre tous ces problèmes.
Dans ces scénarios, il est recommandé de revenir au processus de collecte de données afin de s'assurer d'avoir les données les plus réalistes et de la meilleure qualité possible. Vous pourrez ainsi optimiser la fiabilité et la réussite de votre modèle d'apprentissage automatique.