Gå till huvudinnehåll Gå till ytterligare innehåll

Välja bäst modell för dig

När du analyserar resultaten av ditt experiment är det viktigt att leta efter modeller med specifika egenskaper som är viktiga för ditt användningsfall. Förutom konsekvent korrekta prognoser kan du till exempel också behöva modeller som kan leverera prognoser snabbt. På fliken Modeller i ditt experiment rekommenderas modeller baserat på flera olika analysvinklar.

Analys av de bästa modellerna för ett experiment

Tabellen "Modellmätvärden" i ett ML-experiment, där de bästa modellerna presenteras som rekommendationer

Baserat på dina filter presenteras rekommenderade modeller för att hjälpa dig att överväga flera olika kvalitetsperspektiv. En och samma modell kan betraktas som en toppmodell på mer än ett sätt. Topmodelltyperna är:

Visning av toppmodellerna i användargränssnittet

Information om hur du hittar och utforskar de bästa modellerna för ditt experiment finns på Analysera tabellen modellmätvärden.

Bäst modell

Baserat på dina filter väljs automatiskt den bästa modellen för analys. Den bästa modellen markeras med en Trofé-ikon.

I Qlik Predict bestäms den bästa modellen utifrån en balanserad beräkning som tar hänsyn till både noggrannhet och prognoshastighet.

För att fastställa den bästa modellen utförs följande process automatiskt:

  1. Välj den modell som har högst poäng för det prognosprestandamått som bestäms av modelltypen. De mätvärden som används är:

    • Binär klassificering: F1

    • Multiklassklassificering: F1 Makro.

    • Regression: R2

    • Tidsserie: MASE (eller MAE om MASE inte är tillgängligt)

  2. Använd prestandapoängen från steg 1 och välj alla modeller som ligger inom fem procent av poängen för den modell som har högst poäng.

  3. Av alla valda modeller väljer du den modell som har den snabbaste prognoshastigheten (se Förutsägelsehastighet). Det här är den bästa modellen.

Mest noggrann

Det är viktigt att din modell konsekventkan generera prognoser med hög noggrannhet. Även om F1, F1 Macro och R2 ger balanserad poängsättning som heltäckande återspeglar modellens noggrannhet, kan du också ha ett intresse av de råa noggrannhets- och precisionsmätvärdena för dina modeller.

Den mest noggranna modellen markeras med en Mål-ikon. För att fastställa den mest noggranna modellen utförs följande process automatiskt:

  1. Välj den modell som har högst poäng för det prognosprestandamått som bestäms av modelltypen. De mätvärden som används är:

    • Binär klassificering: F1

    • Multiklassklassificering: F1 Makro

    • Regression: R2

    • Tidsserie:MASE (om MASE inte är tillgängligt, välj modell med lägst MAE)

  2. Använd prestandapoängen från steg 1 och välj alla modeller som ligger inom tio procent av poängen för den modell som har högst poäng.

  3. En av följande två vägar används beroende på modelltyp:

    1. Binär klassificering:

      • Om träningsdatauppsättningen är balanserad väljer du den modell som har högst noggrannhet. Det här är den mest noggranna modellen. För information om det specifika mätvärde som används, se Noggrannhet.

      • Om träningsdatauppsättningen är obalanserad väljer du den modell som har högst precisionsvärde. För information om det specifika mätvärde som används, se Precision.

    2. Multiklassklassificering eller regression:

      • Välj den modell som har högst noggrannhet. Följande mätvärden för noggrannhet används:

    3. Tidsserie: Välj modellen med det bästa (lägsta) MAE poäng.

Snabbaste modell

När du väljer en modell kanske du vill lägga vikt vid hur snabbt modellen kan leverera prognoser. Den snabbaste modellen markeras med en Blixtnedslag-ikon.

Prognoshastigheten avgör vilken modell som är snabbast. Modellernas noggrannhet när det gäller prognoser är dock fortfarande föremål för överväganden. Detta beror på att en modell kanske kan generera prognoser snabbt, men prognoserna också ha en rimlig noggrannhet.

För att fastställa den snabbaste modellen utförs följande process automatiskt:

  1. Välj den modell som har högst poäng för det prognosprestandamått som bestäms av modelltypen. De mätvärden som används är:

    • Binär klassificering: F1

    • Multiklassklassificering: F1 Makro

    • Regression: R2

    • Tidsserie: MASE (om MASE inte är tillgängligt, välj modell med lägst MAE)

  2. En av följande vägar används beroende på modelltyp:

    1. Binär klassificering:

      • Om träningsdatauppsättningen är balanserad väljer du alla modeller som har en noggrannhet som ligger inom tio procent av noggrannheten för den modell som valdes i steg 1. För information om det specifika mått som används, se Noggrannhet.

      • Om träningsdatauppsättningen är obalanserad väljer du alla modeller som ligger inom tio procent av poängen för den modell som fick högst poäng i steg 1. Mätvärdena från steg 1 används.

    2. Multiklassklassificering eller regression:

      • Välj alla modeller som har en noggrannhet som ligger inom tio procent av noggrannheten för modellen från steg 1. Följande mått på noggrannhet används:

    3. Tidsserier: Välj alla modeller inom tio procent av MAE poängen för modellen från steg 1.

  3. Av alla valda modeller väljer du den modell som har den snabbaste prognoshastigheten (se Förutsägelsehastighet). Det här är den snabbaste modellen.

Förutsägelsehastighet

Prognoshastighet är ett modellmått som gäller för alla modelltyper: binär klassificering, flerklassig klassificering, regression, och tidsserier. Prognoshastighet mäter hur snabbt en maskininlärningsmodell kan generera prognoser.

Qlik Predict beräknas prognoshastigheten med hjälp av den kombinerade beräkningstiden för funktioner och prognostiden för testdatauppsättning. Den visas i rader per sekund.

Prognoshastigheten kan analyseras i tabellen Modellmätvärden efter att du har kört din experimentversion. Du kan också visa data om prognoshastighet när du analyserar modeller med inbäddad analys. Mer information finns här:

Överväganden

Den uppmätta prognoshastigheten baseras på storleken på träningsdatauppsättningen snarare än på de data som prognoserna görs på. När du har distribuerat en modell kan du märka skillnader mellan hur snabbt prognoser skapas om tränings- och prognosdata skiljer sig mycket åt i storlek, eller när du skapar prognoser i realtid på en eller en handfull datarader.

Överanpassning

Överanpassning inträffar när en modells prognosbeteende är för nära mappat till träningsdatauppsättningen. När en modell är överanpassad har den sannolikt bara memorerat mönster i träningsdatauppsättningen och kommer inte att kunna prognostisera framtida värden exakt.

Överanpassning kan ha flera orsaker, bland annat problem relaterade till träningsalgoritmer och alltför korta eller komplexa träningsdatauppsättningar.

I Qlik Predict identifieras överanpassning automatiskt genom en analys av test- och träningsresultat för alla mätvärden som används i processen för val av toppmodell, utom prediktionshastighet:

Om det finns en skillnad på mer än tio procent mellan något av dessa mått när man jämför test- och träningsresultaten misstänks modellen vara överanpassad.

Om en modell misstänks vara överanpassad presenteras den aldrig som en rekommenderad modell, även om den får bra resultat. Modellen är markerad med en varning Varning i tabellen Modellmätvärden.

Om alla modeller som visas i dina filter misstänks vara överanpassade, ges inga rekommendationer om modeller.

Hantering av överanpassning

Du kan åtgärda överanpassning genom att:

  • Inte distribuera modeller som misstänks vara överanpassade.

  • Om du misstänker ett problem med din träningsdatauppsättning, se Gör din datauppsättning redo för träning för att lära dig mer om hur du kan förbereda dina träningsdata för att undvika överanpassning.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!