Utvärdering av modellens prestanda över tid
När du har tränat ett antal maskininlärningsmodeller och distribuerat den bästa börjar du skapa prognoser på produktionsdata. Det är viktigt att kontinuerligt utvärdera modellens prestanda för att säkerställa att den fortfarande genererar tillförlitliga prognoser och att de data som den har tränats på fortfarande är relevanta.
Faktorer som är viktiga att övervaka
Operativa behov
Din prediktiva användning kommer sannolikt att förändras över tid. Förändringarna kan vara små eller stora. Du måste bedöma om din modell fortfarande ger värde i sin nuvarande konfiguration. Om din maskininlärningsfråga har förändrats väsentligt sedan du först tränade dina modeller rekommenderas att du startar om processen med att definiera din fråga och dataset.
Ingångsdata och noggrannhet i prognoser
Det är vanligt att fördelningar och trender i indata förändras över tid. Det som en gång var en avgörande kvalitet i dina utbildningsdata kanske inte längre är relevant, eller så kan effekten bli ännu mer uttalad. Du kanske upptäcker att det finns nya variabler som påverkar de förväntade resultaten och som måste införas i din modell som nya funktioner. På samma sätt kan det hända att vissa funktioner inte längre bidrar tillräckligt mycket till utfallet för att ingå i modellen.
Det är viktigt att övervaka dina data för att se hur stor avvikelsen är mellan dina ursprungliga träningsdata och de senaste tillgängliga data. Om driften för vissa funktioner börjar nå en threshold som inte längre är acceptabel är det dags att samla in nya data och träna om modellen, eller börja med en ny definition av maskininlärningsproblemet. Ytterligare information om datadrift finns i Datadrift.
Om du märker att modellen inte längre genererar prognoser med samma noggrannhet som den gjorde från början, måste du också omvärdera vad du behöver ändra för att den ska återgå till acceptabel prestanda. Du kan till exempel upptäcka att noggrannheten i modellen påverkas av fel som uppstår under datainsamlingsprocessen.
Omskolning av modeller
I takt med att fler historiska data blir tillgängliga, och oavsett om ditt resultat har försämrats, är det oundvikligt att du måste träna om dina modeller så att de återspeglar den mest aktuella informationen.
Övervakning av datadrift
AutoML har inbyggda funktioner som hjälper dig att upptäcka avvikelser i funktioner för dina distribuerade modeller. Mer information finns i Övervakning av datadrift i distribuerade datamodeller.
Nästa steg
Beroende på hur mycket ditt användningsfall och indata har förändrats kanske du vill överväga ett eller flera av följande alternativ:
-
Träna modeller på nytt inom samma experiment, med nya data. Om ditt maskininlärningsproblem inte har förändrats väsentligt ger det här alternativet flera fördelar. I synnerhet kan du jämföra modeller från alla experimentversioner i detalj inom samma experiment. Mer information finns i Ändra eller uppdatera datauppsättningen.
-
Om det ursprungliga maskininlärningsproblemet som du ursprungligen definierade inte längre är relevant kan det vara vettigt att skapa ett nytt experiment helt och hållet. Detta beror till stor del på ditt användningsfall.