Klassificeringsproblem
Problem där målkolumnen är en kategorisk kolumn kallas klassificeringsproblem. Binära klassificeringsproblem har två möjliga kategorier, t.ex. ja eller nej, medan problem med flerklassiga klassificeringar har fler än två möjliga kategorier.
Följande exempel förklarar de två typerna av klassificeringsproblem. I dem diskuteras också några av de överväganden som måste göras när man definierar en fråga för maskininlärning.
Exempel på binär klassificering: Kundförluster
I det här exemplet erbjuder ett företag en prenumerationsbaserad modell. Data har samlats in om alla tidigare och nuvarande kunder. Kunderna har märkts med avseende på om de har sagt upp sin prenumeration (förlorats) eller inte.
Följande tabell visar insamlade data. Varje rad representerar en unik kund och kolumnerna representerar olika funktioner som beskriver kunden. Den sista kolumnen är vårt mål. Detta är en binär kolumn som anger om kunden har sagt upp sin prenumeration (Ja eller Nej).
Vi kan använda denna datauppsättning för att träna en algoritm för maskininlärning för att förutsäga om en viss kund kommer att förloras. Det finns dock vissa problem med detta tillvägagångssätt:
-
I datauppsättningen jämförs nya och gamla kunder, och det finns ingen information om huruvida de kunder som ännu inte har sagt upp sin prenumeration kommer att göra det senare.
-
Nya kunder kan ha egenskaper som tyder på att de kan komma att säga upp sin prenumeration (vi kanske vet att män i tjugoårsåldern som inte köper mycket under den första månaden tenderar att säga upp sin prenumeration kort därefter). Men eftersom de är nya och inte har gjort någon uppsägning än tränar vi algoritmen för maskininlärning att associera dessa egenskaper med en lojal kund som inte kommer att göra någon uppsägning.
Undvik dessa fallgropar genom att vara noggrann med hur du definierar förlust och hur du förbereder en datauppsättning för problemet. Att få en känsla för hur man ställer affärsfrågor på ett exakt och lämpligt sätt så att de kan behandlas med maskininlärning är en färdighet som kan övas upp. Att se både bra och dåliga exempel på hur man gör detta är till hjälp när man börjar med maskininlärning för affärstillämpningar. Om du är osäker på hur du ska formulera dina affärsfrågor för maskininlärning kan du överväga att införliva en tidsram i definitionen av dina affärsmått. Denna strategi är ofta mycket effektiv.
Inkludera en tidsfaktor
Låt oss fundera på att ta med tiden i frågan. Vi kan undersöka vilka kunder som kommer att säga upp sina tjänster inom de första sex månaderna. Vi kan till exempel använda deras beteende under den första kundmånaden för att förutsäga om de kommer att göra en uppsägning under de första sex månaderna. Nu har vi ett exakt sätt att definiera kundförluster, ett sätt som innehåller en tidsram. Vi kan sammanställa en datauppsättning på följande sätt:
Här representerar varje rad en kund, men nu tar vi bara med kunder som har funnits kvar i minst sex månader. För var och en av dem används deras antal köp och totala utgifter under den första månaden för att förutsäga om de gjorde en uppsägning efter sex månader. För denna fråga har det blivit irrelevant om de gjorde en uppsägning efter de första sex månaderna. Målkolumnen talar bara om huruvida de sade upp sin prenumeration inom de första sex månaderna.
Nu har vi en träningsdatauppsättning där raderna kan jämföras med varandra. När vi har tränat en modell på denna datauppsättning kan vi ta en ny kund som har prenumererat i minst en månad och använda denna kunds beteende under den första månaden och vår tränade modell för att förutsäga om kunden kommer att göra en uppsägning under de första sex månaderna.
Exempel på flerklassig klassificering: Irisblad
I det här exemplet har vi data om ett stort urval av irisblommor. För varje blomma har vi registrerat längden och bredden på kron- och foderblad samt vilken irissort den tillhör. När vi i framtiden träffar på en ny irisblomma skulle vi vilja kunna förutse vilken irissort det är baserat på längden och bredden på foderbladen och längden och bredden på kronbladen.
Vi kan mata in de insamlade uppgifterna i en algoritm för maskininlärning som anpassar en funktion till historiska data. En sådan funktion skulle resultera i en förutsedd sort baserat på värdena för de fyra andra variablerna. Resultatet är en kategori från en diskret uppsättning kategorier.
Observera att vi utgår från att de data som vi gör prognoser om i framtiden statistiskt sett kommer att likna de data som vi tränade algoritmen på. Om det bara finns tre olika sorters iris i träningsdatauppsättningen kan vi bara använda den tränade algoritmen för att göra prognoser om blommor av dessa sorter. Vi kan inte förvänta oss att en algoritm för maskininlärning ska göra prognoser om mönster som den inte har tränats för att känna igen från träningsdatauppsättningen.