Dérive des données
Au fil du temps, l'exactitude de votre modèle peut diminuer parce que les données d'une ou de plusieurs caractéristiques changent en termes de distribution, d'ampleur et d'autres propriétés. Étant donné que l'apprentissage du modèle d'origine a été effectué avec des caractéristiques qui contiennent des tendances et des distributions spécifiques, les modifications futures de ces distributions affecteront la précision et la qualité des prédictions.
La dérive des données peut être quantifiée et calculée de différentes manières. Dans Qlik AutoML, la dérive des données est calculée à l'aide de la formule d'indice de stabilité de la population. Consultez Surveillance de la dérive des données dans les modèles déployés.
Une bonne pratique consiste à surveiller la dérive des données de votre modèle en comparant le jeu de données d'apprentissage d'origine au jeu de données d'application le plus récent sur lequel vous générez des prédictions. Lorsque la dérive des données atteint un seuil spécifique, renouvelez l'apprentissage du modèle ou configurez un nouveau modèle si votre problème d'apprentissage automatique initial a changé de manière substantielle.
Pour plus d'informations sur l'évaluation des performances d'un modèle au fil du temps, consultez Évaluation des performances des modèles au fil du temps.
Exemple
Supposons qu'une entreprise dispose d'un ensemble de produits dont il a été établi qu'ils sont principalement appréciés des consommateurs âgés de 45 ans et plus. La distribution de valeurs d'une caractéristique Age peut ressembler à ce qui suit.
Récemment, l'entreprise a lancé un nouveau produit qui est commercialisé pour attirer également les jeunes consommateurs. Lorsque le produit se vend comme prévu, on observe une dérive importante de la caractéristique Age.
Surveillance de la dérive des données dans AutoML
AutoML dispose d'outils intégrés pour vous aider à détecter la dérive des données, caractéristique par caractéristique, au sein de vos modèles déployés. Pour plus d'informations, consultez Surveillance de la dérive des données dans les modèles déployés.