Förstå modellalgoritmer
En algoritm är ett matematiskt recept som producerar en modell. Den tar emot indata – din datauppsättning – och producerar utdata – modellen. Varje algoritm har olika styrkor och svagheter.
När du väljer ett mål väljer AutoML automatiskt de bästa algoritmerna för användningsfallet. Målet bestämmer vilken typ av algoritmer som ska användas.
Algoritmer som fungerar bäst med binära och flerklassiga klassificeringsproblem används i följande fall:
-
Målet har endast två unika värden, som i "Kommer en kund att säga upp sin prenumeration?" – Ja eller Nej.
-
Målet är ett strängvärde med mellan tre och tio unika värden. Till exempel kan man bestämma den optimala kampanjmixen där målet är "rött", "blått", "grönt" eller "gult".
Algoritmer som fungerar bäst med regressionsproblem används om målet är en numerisk kolumn. Att förutse hur mycket en kund kommer att köpa är ett exempel på ett regressionsproblem.
Algoritmer för binära och flerklassiga klassificeringsproblem
AutoML använder följande algoritmer för binära och flerklassiga klassificeringsproblem:
-
Catboost-klassificering
-
Elastiskt nät-regression
-
Gaussisk Naive Bayes
-
Lassoregression
-
LightGBM-klassificering
-
Logistisk regression
-
Slumpskogsklassificering
-
XGBoost-klassificering
Algoritmer för regressionsproblem
AutoML använder följande algoritmer för regressionsproblem:
-
Catboost-regression
-
LightGBM-regression
-
Linjär regression
-
Slumpskogsregression
-
SGD-regression
-
XGBoost regression
Olika typer av modeller
Modelltyperna kan delas in i regressionsmodeller, ensembler och andra typer av modeller för maskininlärning.
Regressionsmodeller
Regressionsmodeller, eller allmänna linjära modeller, är modeller som letar efter trender längs området för varje variabel oberoende av varandra. Precis som den algebraiska ekvationen y = mx+b försöker algoritmen välja ett m och ett b som ger den högsta noggrannheten i genomsnitt för varje x- och y-värde. Det är i allmänhet samma koncept när det finns mer än en variabel. Linjär regression och logistisk regression är exempel på regressionsmodeller för regressionsproblem respektive klassificeringsproblem.
För klassificeringsproblem är regressionsmodellens resultat sannolikheten för att urvalet är den positiva klassen. Detta innebär att y är lika med sannolikheten och inte ett verkligt värde.
Regressioner är bra för att hitta linjära trender i data, men ibland finns det ett förhållande som inte är linjärt. För att en regression ska kunna passa bra till ett icke-linjärt mönster krävs dataomvandling innan modellen tränas. Fördelen med en stark förståelse för linjära samband är att linjära samband i allmänhet är bäst när det gäller extrapolering. I tabellen listas för- och nackdelar med regressionsmodeller.
Fördelar | Nackdelar |
---|---|
|
|
Ensemblemodeller
Ensembler är när flera modeller kombineras. Detta kan jämföras med att en grupp människor med olika bakgrund röstar och använder den genomsnittliga rösten för att besluta. Slumpskog och XGBoost är exempel på ensemblemodeller.
Ensembler kan lösa både regressions- och klassificeringsproblem. De är bra på att hitta icke-linjära samband och på att ta reda på hur interaktioner mellan variabler påverkar målet. Även om ensembler är bra på att lära sig mönster inom det dataområde som de tränas på, är de dåliga på att förutsäga värden utanför det område som de har sett. I tabellen listas för- och nackdelar med ensemblemodeller.
Fördelar | Nackdelar |
---|---|
|
|
Andra modelltyper
Andra modelltyper omfattar alla andra modelltyper. Exempel är Nearest Neighbors och Gaussisk Naive Bayes. Dessa typer av modeller försöker i allmänhet skapa en ny rumslig representation av data, ofta genom att skapa någon typ av avståndsmått som mäter hur olika två poster är. De kan vara bra på att hantera icke-linjära trender, men de är datamässigt mycket mer resurskrävande när datauppsättningen blir större. I tabellen listas för- och nackdelar med andra modeller.
Fördelar | Nackdelar |
---|---|
|
|