Intelligent modelloptimering

Intelligent modelloptimering ger automatisk förfinande av de modeller du tränar i ett experiment. Med intelligent modelloptimering hanteras processerna för att iterera funktionsval och tillämpa avancerade transformationer åt dig. Med en väl förberedd träningsdatamängd som innehåller alla relevanta funktioner kan du förvänta dig att intelligent modelloptimering tränar modeller som är redo att distribueras inom en enda version.

Vad är intelligent modelloptimering?

Intelligent modelloptimering automatiserar många aspekter av modellförfiningsprocessen. Med intelligent modelloptimering kan du snabbt träna högkvalitativa modeller utan att manuellt förfina funktionsvalet eller justera dina indata.

Använda intelligent modelloptimering

Intelligent modelloptimering är aktiverat som standard i nya ML-experiment av följande typer:

Binär klassificering
Multiklassificering
Regression

Intelligent modelloptimering är inte tillämplig på tidsserieförsök.

Du kan aktivera eller inaktivera intelligent modelloptimering för varje version av experimentet som du kör.

Efter att du har kört en experimentversion med intelligent optimering aktiverad kan du se resultaten av optimeringen i Sammanfattning av modellträning. Denna sammanfattning visas på fliken Modeller under Modellinsikter. Håll muspekaren över understrukna termer för att visa en beskrivning med en detaljerad förklaring.

Den Sammanfattning av modellträning som visas är unik för varje modell som tränas i en experimentversion.

Så fungerar intelligent modelloptimering

Med intelligent modelloptimering:

Fler modeller tränas än med manuell optimering. Funktionsval hanteras på modellnivå. Detta innebär att till skillnad från manuell optimering kan varje modell i en version ha olika funktionsval.
Utöver den automatiska förbearbetning som tillämpas på alla modeller som standard, bearbetas träningsdata med flera avancerade transformationer. Dessa transformationer bidrar till att säkerställa att dina data är i ett optimalt format för maskininlärningsalgoritmer.
För kvalitetssäkring tränas fortfarande en baslinjemodell – en modell som tränats på hela den funktionsuppsättning som du konfigurerat för versionen. Detta hjälper till att kontrollera om den intelligenta optimeringen faktiskt förbättrar modellresultaten.
För större träningsdatamängder tränas modeller på en mängd olika urvalsförhållanden (sampling ratios). Detta bidrar till att påskynda träningsprocessen. Mer information finns i Sampling av träningsdata.

Sampling av träningsdata

När du tränar modeller med en stor mängd data använder Qlik Predict sampling för att träna modeller på en mängd olika delmängder (samplingsförhållanden) av den ursprungliga datamängden. Sampling används för att påskynda träningsprocessen. I början av träningen tränas modellerna på ett litet samplingsförhållande. Allteftersom träningen fortsätter tränas modellerna gradvis på större delar av data. Slutligen tränas modellerna på hela datamängden (ett samplingsförhållande på 100 %).

Under analysen av modellträningsdata döljs modeller som tränats med mindre än 100 % av träningsdatamängden från vissa vyer.

Bearbetning som tillämpas under intelligent modelloptimering

The Sammanfattning av modellträning visar hur träningsdata bearbetades av intelligent modelloptimering. Följande delavsnitt innehåller mer information om varje post som du ser i loggen.

Den bearbetning som tillämpas kan skilja sig åt mellan olika modeller.

Sammanfattningsdiagram över träning för en modell som tränats med intelligent optimering. Funktioner från träningsdata uteslöts automatiskt från modellen av orsaker som målläckage och hög korrelation — Diagrammet Sammanfattning av modellträning för en modell, som visas på fliken Modeller

Funktionsval

Intelligent modelloptimering hjälper till att förfina dina modeller genom att ta bort funktioner som kan försämra den prediktiva prestandan. Under intelligent modelloptimering kan en funktion tas bort av något av följande skäl:

Target leakage: Funktionen misstänks vara påverkad av målläckage (target leakage). Funktioner som påverkas av målläckage innehåller information om målkolumnen som du försöker förutsäga. Till exempel härleds funktionen direkt från målet, eller så innehåller den information som inte skulle vara känd vid tidpunkten för förutsägelsen. Funktioner som orsakar målläckage kan ge en falsk känsla av säkerhet gällande modellens prestanda. I verkliga förutsägelser gör de att modellen presterar mycket dåligt.
Low permutation importance: Funktionen har inte mycket, om ens något, inflytande på modellens förutsägelser. Att ta bort dessa funktioner förbättrar modellens prestanda genom att minska statistiskt brus.
Highly correlated: Funktionen har hög korrelation med en eller flera andra funktioner i experimentet. Funktioner med alltför hög korrelation är inte lämpliga att använda för att träna modeller.

På fliken Data i experimentet kan du visa insikter om borttagna funktioner för varje modell. Insikter hänvisar också till funktioner som togs bort utanför den intelligenta modelloptimeringsprocessen. Mer information om varje insikt finns i Tolka insikter om datamängder.

Feature transformations

Intelligent modelloptimering tillämpar ett antal tekniska transformationer på funktionsnivå. Dessa transformationer bearbetar dina träningsdata så datamängden kan användas mer effektivt för att skapa en tillförlitlig maskininlärningsmodell. Funktionstransformationer tillämpas automatiskt efter behov. I Sammanfattning av modellträning meddelas du när funktionstransformationer tillämpas och vilka funktioner som påverkas.

Power-transformering

Funktionsdata innehåller ofta naturligt fördelningar med viss grad av asymmetri och avvikelse från en normalfördelning. Innan en modell tränas kan det vara bra att tillämpa viss bearbetning på data för att normalisera värdefördelningar om de verkar vara alltför skeva. Denna bearbetning bidrar till att minska partiskhet (bias) och identifiera outliers.

Med intelligent modelloptimering transformeras numeriska funktioner som överskrider en specifik skevhetströskel till att få en mer normal (eller normalliknande) fördelning med hjälp av power-transformeringar. Specifikt används Yeo-Johnson-power-transformeringen.

Samling av numeriska funktioner

Vissa numeriska funktioner kan innehålla mönster och fördelningar som inte enkelt hanteras av maskininlärningsalgoritmer. Med intelligent modelloptimering hanteras detta delvis genom att organisera data för specifika numeriska funktioner i olika fack (bins) beroende på deras värdeintervall. Samling (binning) utförs så att funktionerna kan transformeras till kategoriska funktioner.

Efter att samlingen är klar blir de nya kategoriska funktionerna one-hot-kodade och används i träningen. Mer information om one-hot-kodning finns i Kategorisk kodning.

Viktning och urval på radnivå

Identifiering och hantering av avvikelser

Anomalier är datavärden som ligger utanför det intervall där man rimligen kan förvänta sig att de ska hamna. Det är inte ovanligt att det finns vissa outliers i dina träningsdata. Vissa anomalier kan till och med vara önskvärda som ett sätt att återspegla verkliga möjligheter. I andra fall kan anomalier störa möjligheten att träna en tillförlitlig modell.

Med intelligent modelloptimering identifierar Qlik Predict potentiella anomalier. Raderna där outlier-värdena förekommer hanteras sedan med ett algoritmstyrt viktningssystem. Om ett värde starkt misstänks vara en anomali minskar viktningssystemet det inflytande som motsvarande rad i träningsdata har på modellen.

Efter att din modell har tränats meddelas du om procentandelen rader från den ursprungliga träningsdatamängden som hanterades som avvikande data.

Mer information finns i Identifiering och hantering av avvikelser.

Klassbalansering

I din träningsdatamängd är det möjligt att det finns fler förekomster av ett visst värde (klass) än andra. Detta fenomen kallas klassobalans. När klassobalans förekommer i dina data lär sig de resulterande modellerna mer om majoritetsklassen än om minoritetsklassen, vilket påverkar förutsägelsens noggrannhet.

Med intelligent modelloptimering utför Qlik Predict automatisk klassbalansering för binära klassificeringsmodeller. Klassobalans detekteras genom att jämföra värdefördelningen för de två klasserna i målkolumnen. Specifikt utförs det när förhållandet mellan de två klasserna är:

95 % (eller mer) av raderna innehåller en klass
5 % (eller mindre) av raderna innehåller den andra klassen

Under klassbalanseringen översamplas träningsdata för att förbättra klassfördelningen. Processen är iterativ – ett antal olika utdataförhållanden testas för att hitta den optimala balansen för modellens prestanda.

Efter översampling används den översamplade datamängden sedan för att träna modellerna i experimentversionen.

Mer allmän information om klassbalansering finns i Balansering av klasser.

Inaktivera intelligent optimering

Med intelligent optimering inaktiverad optimerar du träningen manuellt. Manuell optimering kan vara till hjälp om du behöver mer kontroll över träningsprocessen. Du kanske särskilt vill köra en version med intelligent modelloptimering och sedan inaktivera inställningen om du behöver göra en liten uppsättning manuella justeringar.

Manuell optimering är inte tillgänglig i tidsserieexperiment.

Gör följande:

I ett experiment klickar du på Visa konfiguration.

Panelen för experimentkonfiguration öppnas.
Om du redan har kört minst en version av experimentet klickar du på Skapa ny version.
I panelen expanderar du Modelloptimering.
Växla från Intelligent till Manuell.

Viktiga överväganden

Tänk på följande när du arbetar med intelligent modelloptimering:

Att använda intelligent modelloptimering garanterar inte att din träning kommer att producera högkvalitativa modeller. Stegen för förberedelse av datamängd och experimentkonfiguration är också avgörande för att producera tillförlitliga modeller. Om du inte har en väl förberedd datamängd, eller om din konfiguration saknar nyckelfunktioner, är det inte säkert att dina modeller presterar väl i produktionsmiljöer. Mer information om dessa steg finns i:
- Förbereda din datamängd för träning
- Konfigurera experiment
När intelligent modelloptimering är aktiverat för en version kommer varje modell från denna version att ha en separat uppsättning inkluderade funktioner. Å andra sidan kommer alla modeller från en version som tränats med manuell optimering att ha samma uppsättning inkluderade funktioner.
Intelligent modelloptimering använder endast de funktioner och algoritmer som du har inkluderat i konfigurationen för versionen.

Hyperparameteroptimering

Hyperparameteroptimering är inte tillgänglig när intelligent modelloptimering är aktiverat. För att aktivera hyperparameteroptimering måste du ställa in modelloptimeringen till Manuell.

Mer information finns i Hyperparameteroptimering.

Exempel

Ett exempel som visar fördelarna med intelligent modelloptimering finns i Introduktionskurs – Generera och visualisera förutsägelsedata.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här