Het beste model voor u selecteren

Bij het analyseren van de resultaten van uw experiment is het belangrijk om modellen te zoeken met specifieke kenmerken die belangrijk zijn voor uw gebruiksscenario. U hebt bijvoorbeeld niet alleen consistent nauwkeurige voorspellingen nodig, maar ook modellen die snel voorspellingen kunnen leveren. Op het tabblad Modellen in uw experiment worden modellen aanbevolen op basis van verschillende invalshoeken voor de analyse.

De tabel 'Modelstatistieken' in een ML-experiment, met de topmodellen gepresenteerd als aanbevelingen — De topmodellen voor een experiment analyseren

Op basis van uw filters worden aanbevolen modellen gepresenteerd om u te helpen verschillende kwaliteitsperspectieven te overwegen. Een model kan op meer dan één manier als topmodel worden beschouwd. De topmodeltypen zijn als volgt:

Beste model
Nauwkeurigst
Snelste model

De topmodellen in de gebruikersinterface bekijken

Zie De tabel met modelmetrieken analyseren voor informatie over het vinden en verkennen van de topmodellen voor uw experiment.

Beste model

Op basis van uw filters wordt automatisch het beste model geselecteerd voor analyse. Het beste model wordt gemarkeerd met het pictogram Trofee .

In Qlik Predict wordt het beste model bepaald op basis van een evenwichtige berekening die rekening houdt met zowel nauwkeurigheid als voorspellingssnelheid.

Om het beste model te bepalen, wordt automatisch het volgende proces uitgevoerd:

Selecteer het model met de hoogste score voor de voorspellende prestatie die door het modeltype wordt bepaald. De gebruikte meeteenheden zijn:
- Binaire classificatie: F1
- Multiclass-classificatiemodellen: F1 macro
- Regressie: R2
- Tijdreeksen: MASE (of MAE als MASE niet beschikbaar is)
Selecteer met behulp van de prestatiescores uit stap 1 alle modellen die binnen vijf procent van de score van het hoogst scorende model liggen.
Selecteer uit alle geselecteerde modellen het model met de snelste voorspellingssnelheid (zie Voorspellingssnelheid). Dit model is het beste model.

Nauwkeurigst

Het is belangrijk dat uw model consistent voorspellingen met een hoge juistheid kan genereren. Hoewel F1, F1 macro en R2 gebalanceerde scores bieden die de nauwkeurigheid van het model uitgebreid weergeven, hebt u misschien ook belang bij de ruwe nauwkeurigheid en precisie van uw modellen.

Het nauwkeurigste model wordt gemarkeerd met het pictogram Doel . Om het nauwkeurigste model te bepalen, wordt automatisch het volgende proces uitgevoerd:

Selecteer het model met de hoogste score voor de voorspellende prestatie die door het modeltype wordt bepaald. De gebruikte meeteenheden zijn:
- Binaire classificatie: F1
- Multiclass-classificatie: F1 macro
- Regressie: R2
- Tijdreeks: MASE (als MASE niet beschikbaar is, selecteer dan een model met de laagste MAE)
Selecteer met behulp van de prestatiescores uit stap 1 alle modellen die binnen tien procent van de score van het hoogst scorende model liggen.
Afhankelijk van het modeltype wordt een van de volgende twee trajecten gebruikt:
1. Binaire classificatie:
  - Als de trainingsgegevensverzameling evenwichtig is, selecteert u het model met de hoogste score voor nauwkeurigheid. Dit is het nauwkeurigste model. Zie Nauwkeurigheid voor informatie over de specifieke meeteenheid die wordt gebruikt.
  - Als de trainingsgegevensverzameling onevenwichtig is, selecteert u het model met de hoogste score voor precisie. Zie Precisie voor informatie over de specifieke meeteenheid die wordt gebruikt.
2. Multiclass-classificatie of regressie:
  - Selecteer het model met de hoogste nauwkeurigheidsscore. De volgende nauwkeurigheidsgegevens worden gebruikt:
    - Multiclass-classificatie: Nauwkeurigheid
    - Regressie: MAE
3. Tijdreeksen: selecteer het model met de beste (laagste) MAE-score.

Snelste model

Bij het kiezen van een model kunt u waarde hechten aan hoe snel het model voorspellingen kan leveren. Het snelste model wordt gemarkeerd met het pictogram Bliksemschicht .

Voorspellingssnelheid bepaalt welk model het snelst is. De voorspellende nauwkeurigheid van de modellen wordt echter nog steeds in overweging genomen. Dit komt omdat een model misschien snel voorspellingen kan genereren, maar het moet ook met een redelijke nauwkeurigheid kunnen voorspellen.

Om het snelste model te bepalen, wordt automatisch het volgende proces uitgevoerd:

Selecteer het model met de hoogste score voor de voorspellende prestatie die door het modeltype wordt bepaald. De gebruikte meeteenheden zijn:
- Binaire classificatie: F1
- Multiclass-classificatie: F1 macro
- Regressie: R2
- Tijdreeks: MASE (als MASE niet beschikbaar is, selecteer dan een model met de laagste MAE)
Afhankelijk van het modeltype wordt een van de volgende trajecten gebruikt:
1. Binaire classificatie:
  - Als de trainingsgegevensverzameling evenwichtig is, selecteert u alle modellen die een nauwkeurigheidsscore binnen tien procent van de nauwkeurigheidsscore van het in stap 1 geselecteerde model hebben. Zie Nauwkeurigheid voor informatie over de specifieke meeteenheid die wordt gebruikt.
  - Als de trainingsgegevensverzameling onevenwichtig is, selecteert u alle modellen die binnen tien procent van de score van het hoogst scorende model uit stap 1 liggen. De meeteenheid van stap 1 wordt gebruikt.
2. Multiclass-classificatie of regressie:
  - Selecteer alle modellen met een nauwkeurigheidsscore binnen tien procent van de nauwkeurigheidsscore van het model uit stap 1. De volgende nauwkeurigheidsscores worden gebruikt:
    - Multiclass-classificatie: Nauwkeurigheid
    - Regressie: MAE
3. Tijdreeksen: selecteer alle modellen binnen tien procent van de MAE-score van het model uit stap 1.
Selecteer uit alle geselecteerde modellen het model met de snelste voorspellingssnelheid (zie Voorspellingssnelheid). Dit model is het snelste model.

Voorspellingssnelheid

Voorspellingssnelheid is een modeleenheid die van toepassing is op alle modeltypen: binaire classificatie, multiclass-classificatie, regressie en tijdreeks. Voorspellingssnelheid meet hoe snel een machine learning-model voorspellingen kan genereren.

In Qlik Predict wordt de voorspellingssnelheid berekend aan de hand van de gecombineerde berekeningstijd van functies en de voorspellingstijd van de testgegevensverzameling. Deze wordt weergegeven in rijen per seconde.

De voorspellingssnelheid kan worden geanalyseerd in de tabel Modelstatistieken nadat uw experimentversie is uitgevoerd. U kunt ook gegevens over de voorspellingssnelheid bekijken bij het analyseren van modellen met ingesloten analyses. Ga voor meer informatie naar:

Overwegingen

De gemeten voorspellingssnelheid is gebaseerd op de grootte van de trainingsgegevensverzameling in plaats van op de gegevens waarop voorspellingen worden gedaan. Na het implementeren van een model kunt u verschillen opmerken in de snelheid waarmee voorspellingen worden gemaakt als de trainings- en voorspellingsgegevens sterk in grootte verschillen, of als u realtime voorspellingen maakt op één gegevensrij of een handvol gegevensrijen.

Overfitting

Overfitting treedt op wanneer het voorspellende gedrag van een model te nauw wordt toegewezen aan de trainingsgegevensverzameling. Als een model overfit is, heeft het waarschijnlijk alleen patronen in de trainingsgegevensverzameling onthouden, en zal het toekomstige waarden niet nauwkeurig kunnen voorspellen.

Overfitting kan verschillende oorzaken hebben, waaronder problemen met trainingsalgoritmen en te korte of complexe trainingsgegevensverzamelingen.

In Qlik Predict wordt overfitting automatisch geïdentificeerd door middel van een analyse van test-train resultaten voor alle statistieken die gebruikt worden in het proces voor de selectie van topmodellen, behalve voorspellingssnelheid:

Binaire classificatie-modellen: F1, Nauwkeurigheid (evenwichtige gegevens), Precisie (onevenwichtige gegevens)
Multiclass-classificatiemodellen: F1 macro, Nauwkeurigheid
Regressiemodellen: R2, MAE

Als er een verschil van meer dan tien procent is tussen een van deze meeteenheden bij het vergelijken van de test- en trainingsresultaten, wordt vermoed dat het model overfit is.

Als het vermoeden bestaat dat een model overfit is, wordt het nooit als aanbevolen model gepresenteerd, zelfs niet als het goed scoort. Het model is gemarkeerd met een waarschuwing in de tabel Modelstatistieken.

Als het vermoeden bestaat dat alle modellen die in uw filters worden getoond overfit zijn, worden er geen aanbevelingen voor modellen gegeven.

Overfitting aanpakken

U kunt overfitting aanpakken door:

Modellen waarbij overfitting wordt vermoed niet te implementeren.
Als u vermoedt dat er een probleem is met uw trainingsgegevensverzameling, leest u Uw dataset voorbereiden voor training voor meer informatie over hoe u uw trainingsgegevens kunt voorbereiden om overfitting te voorkomen.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback