Förstå modellalgoritmer

En algoritm är ett matematiskt recept som producerar en modell. Den tar emot indata – din datauppsättning – och producerar utdata – modellen. Varje algoritm har olika styrkor och svagheter.

När du väljer ett mål väljer AutoML automatiskt de bästa algoritmerna för användningsfallet. Målet bestämmer vilken typ av algoritmer som ska användas.

Algoritmer som fungerar bäst med binära och flerklassiga klassificeringsproblem används i följande fall:

Målet har endast två unika värden, som i "Kommer en kund att säga upp sin prenumeration?" – Ja eller Nej.
Målet är ett strängvärde med mellan tre och tio unika värden. Till exempel kan man bestämma den optimala kampanjmixen där målet är "rött", "blått", "grönt" eller "gult".

Algoritmer som fungerar bäst med regressionsproblem används om målet är en numerisk kolumn. Att förutse hur mycket en kund kommer att köpa är ett exempel på ett regressionsproblem.

Algoritmer för binära och flerklassiga klassificeringsproblem

AutoML använder följande algoritmer för binära och flerklassiga klassificeringsproblem:

Catboost-klassificering
Elastiskt nät-regression
Gaussisk Naive Bayes
Lassoregression
LightGBM-klassificering
Logistisk regression
Slumpskogsklassificering
XGBoost-klassificering

Algoritmer för regressionsproblem

AutoML använder följande algoritmer för regressionsproblem:

Catboost-regression
LightGBM-regression
Linjär regression
Slumpskogsregression
SGD-regression
XGBoost regression

Olika typer av modeller

Modelltyperna kan delas in i regressionsmodeller, ensembler och andra typer av modeller för maskininlärning.

Regressionsmodeller

Regressionsmodeller, eller allmänna linjära modeller, är modeller som letar efter trender längs området för varje variabel oberoende av varandra. Precis som den algebraiska ekvationen y = mx+b försöker algoritmen välja ett m och ett b som ger den högsta noggrannheten i genomsnitt för varje x- och y-värde. Det är i allmänhet samma koncept när det finns mer än en variabel. Linjär regression och logistisk regression är exempel på regressionsmodeller för regressionsproblem respektive klassificeringsproblem.

För klassificeringsproblem är regressionsmodellens resultat sannolikheten för att urvalet är den positiva klassen. Detta innebär att y är lika med sannolikheten och inte ett verkligt värde.

Regressioner är bra för att hitta linjära trender i data, men ibland finns det ett förhållande som inte är linjärt. För att en regression ska kunna passa bra till ett icke-linjärt mönster krävs dataomvandling innan modellen tränas. Fördelen med en stark förståelse för linjära samband är att linjära samband i allmänhet är bäst när det gäller extrapolering. I tabellen listas för- och nackdelar med regressionsmodeller.

Fördelar	Nackdelar
Bra på att extrapolera Bra på att hitta linjära trender för oberoende variabler Bra med stora datauppsättningar från samma population Enkel att förstå	Dålig förmåga att utnyttja mönster mellan variabler Dålig anpassning av icke-linjära trender Ibland för förenklad

Ensemblemodeller

Ensembler är när flera modeller kombineras. Detta kan jämföras med att en grupp människor med olika bakgrund röstar och använder den genomsnittliga rösten för att besluta. Slumpskog och XGBoost är exempel på ensemblemodeller.

Ensembler kan lösa både regressions- och klassificeringsproblem. De är bra på att hitta icke-linjära samband och på att ta reda på hur interaktioner mellan variabler påverkar målet. Även om ensembler är bra på att lära sig mönster inom det dataområde som de tränas på, är de dåliga på att förutsäga värden utanför det område som de har sett. I tabellen listas för- och nackdelar med ensemblemodeller.

Fördelar	Nackdelar
Bra på att utnyttja mönster mellan variabler Bra på att hitta icke-linjära trender Bra med stora datauppsättningar från samma population	Dåliga på att extrapolera Inte lika lätta att tolka

Andra modelltyper

Andra modelltyper omfattar alla andra modelltyper. Exempel är Nearest Neighbors och Gaussisk Naive Bayes. Dessa typer av modeller försöker i allmänhet skapa en ny rumslig representation av data, ofta genom att skapa någon typ av avståndsmått som mäter hur olika två poster är. De kan vara bra på att hantera icke-linjära trender, men de är datamässigt mycket mer resurskrävande när datauppsättningen blir större. I tabellen listas för- och nackdelar med andra modeller.

Fördelar	Nackdelar
Bra på att utnyttja mönster mellan variabler Bra på att hitta icke-linjära trender	Dåliga på att extrapolera Beräkningsmässigt mer resurskrävande för större datauppsättningar

RELATERAD INFORMATION:

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!

Lämna din feedback här