Grunderna för maskininlärning
Maskininlärning är en metod där man använder matematiska algoritmer för att känna igen mönster i data och sedan använda dessa mönster för att göra prognoser.
Ett enkelt exempel: Prognos om försäljning
För att bättre förstå maskininlärning kan vi titta på ett enkelt exempel som förutspår försäljningen av en produkt under nästa kvartal. Vi kanske vet att försäljningen av denna produkt påverkas av hur mycket pengar som spenderas på reklam för produkten. Genom att titta på data från tidigare kvartal vet vi:
-
Hur mycket pengar (i tusentals dollar) som spenderas på att göra reklam för produkten i tv.
-
Hur stor försäljningen var (i miljoner dollar).
När vi kartlägger data är det uppenbart att ju mer pengar som spenderas på att göra reklam för vår produkt i tv, desto mer säljer vi.
För att förutsäga försäljningsintäkterna under nästa kvartal kan vi anpassa en funktion till historiska data:
Baserat på det belopp vi har budgeterat att spendera på tv-reklam under nästa kvartal kan vi utvärdera funktionen till det värde som motsvarar detta belopp. Säg att vi planerar att spendera 225 000 dollar på tv-reklam nästa kvartal. Om vi utvärderar funktionen vid 225 får vi 17,7, och vi kan förutspå en försäljning på 17,7 miljoner dollar för nästa kvartal.
För att ytterligare förbättra prognosens noggrannhet kan vi försöka hitta en funktion som bättre passar historiska data – som visas i figuren – och göra prognoser utifrån denna funktion.
I det här exemplet har vi bara tittat på hur mycket pengar som spenderas på tv-reklam. Vi kan också ta hänsyn till andra faktorer som påverkar den framtida försäljningen. I stället för att ha försäljningen som en funktion av enbart tv-reklamutgifter skulle vi till exempel kunna ha försäljningen som en funktion av de tre variablerna tv-reklamutgifter, radioreklamutgifter och tidningsreklamutgifter. Vi kan använda hur många variabler som helst, men den allmänna idén är densamma.
Begrepp för maskininlärning
Ur ett dataperspektiv reduceras problemet för maskininlärning till att sammanställa en tabell med historiska data. Vi har en kolumn i tabellen som representerar det vi vill förutsäga, vilket i vårt tidigare exempel var försäljning. Med ett maskininlärningsbegrepp kallas denna kolumn för målet. De andra kolumnerna kallas funktioner och används för att förutsäga värdet för målkolumnen. Funktionerna är variabler som potentiellt kan bidra till målresultatet. Den grundläggande idén bakom maskininlärning är följande:
Med en datauppsättning hittar vi en funktion som passar in på data så att vi kan förutsäga vad värdet för målkolumnen kommer att bli med utgångspunkt i funktionskolumnernas värden.
Flera avancerade algoritmer för maskininlärning har utvecklats för att lösa olika typer av maskininlärningsproblem. När vi lägger in data i en algoritm för maskininlärning och låter den lära sig mönster, säger vi att vi tränar en algoritm för maskininlärning.
Maskininlärningsproblem delas in i regressionsproblem och klassificeringsproblem, beroende på om målet vi vill förutsäga är ett numeriskt eller kategoriskt värde. Se exempel i Klassificeringsproblem och Regressionsproblem.
Automatiserad maskininlärning
Med automatiserad maskininlärning hittas de bäst passande funktionerna automatiskt under träningen med dina historiska data. Du kan enkelt ladda upp en datauppsättning, välja ett mål och sedan starta träningen genom att trycka på en knapp.
Du kan dock bara få ett bra prediktivt resultat om du har bra indata. Ett experiment för maskininlärning kräver en väldefinierad fråga för maskininlärning och en datauppsättning som är utformad för att besvara frågan. Följ de här stegen för att komma igång med ditt första experiment:
- Definiera en fråga för maskininlärning
Förvandla ditt användningsområde till en specifik fråga med hjälp av ett strukturerat ramverk.
- Förbered din träningsdatauppsättning
Samla in data av god kvalitet som är relevanta för ditt användningsområde.
- Skapa ett experiment för automatiserad maskininlärning
När förberedelserna är klara kan du börja experimentera.