Gå till huvudinnehåll Gå till ytterligare innehåll

Regressionsproblem

Regressionsproblem är maskininlärningsproblem med en numerisk målkolumn. Följande exempel visar hur du kan formulera en affärsfråga på ett exakt sätt och sedan sammanställa en träningsdatauppsättning där alla funktioner är likvärdiga. Detta ger en bra grund för att skapa en prediktiv regressionsmodell.

Regressionsexempel: Kundens livstidsvärde

Vi börjar med att anta att en maskininlärningsmodell som tränas på historiska kunder lär sig att förutsäga kundernas livstidsvärde med hjälp av flera funktioner som påverkar prognosen. Vi samlar in en datauppsättning med historisk information om alla tidigare och nuvarande kunder. Det finns en rad för varje kund och kolumnerna representerar funktioner som beskriver kunden: kund-ID, kön, ålder, datum då kunden blev kund, postnummer, antal köp som de har gjort och deras totala utgifter.

Urval av insamlade data

Tabell med ett urval av träningsdata.

Vi skulle kunna definiera kundens livstidsvärde som den totala utgiften, lägga in datauppsättningen i en algoritm för maskininlärning och låta den lära sig att förutsäga den totala utgiften. När nya kunder förvärvas i framtiden kan vi använda den tränade algoritmen för att förutsäga hur stort ekonomiskt värde de kommer att tillföra under sin tid som kund. Det finns dock flera problem med detta tillvägagångssätt:

  • Datauppsättningen kan omfatta personer som har varit kunder i en dag, en månad eller ett år. Värdet för total utgift återspeglar inte hur mycket en kund kommer att spendera, utan det totala belopp kunden har spenderat hittills.

  • En kund vars konto är en dag gammalt kan ha egenskaperna hos en kund med hög avkastning. Men eftersom kunden blev kund först igår har kunden bara gjort ett köp och inte spenderat mycket pengar. Genom att inkludera kunden i träningsdatauppsättningen lär vi felaktigt algoritmen för maskininlärning att detta är en typ av kund som inte ger mycket pengar.

  • Vi kan ha en ny kund som under den första månaden har beställt produkter tre gånger i veckan, vilket motsvarar 12 inköp. En annan person som har varit kund i ett år och köpt en gång i månaden kan ha spenderat samma summa pengar. Algoritmen för maskininlärning skulle placera de två kunderna på samma nivå när det gäller kundens livstidsvärde, trots att den en månad gamla kunden i själva verket kan vara betydligt mer värdefull på lång sikt.

För att undvika dessa fallgropar måste vi vara exakta i fråga om hur vi definierar kundernas livstidsvärde och hur vi förbereder en datauppsättning för problemet. Ett bra sätt att uppnå detta är att inkludera tid som en faktor i problemdefinitionen.

Inkludera en tidsfaktor

För att inkludera en tidsfaktor börjar vi med att definiera värdet för det första året som den totala summa pengar som en kund spenderar under sitt första år som kund. Vi kan sedan använda en kunds beteende under de tre första månaderna som funktioner för att förutsäga kundens totala utgifter under det första året. Första årsvärdet är en exakt definition av ett intressant mått som omfattar en tidsram. Fördelen med att skapa ett sådant exakt definierat mått är att alla exempel från vår träningsdatauppsättning är likvärdiga.

Observera att eftersom vi nu tittar på de totala belopp som personer spenderade under första året som kund måste vi begränsa träningsdatauppsättningen till kunder som har funnits i minst ett år. Vi kan förbereda en datauppsättning på följande sätt:

Datauppsättning som innehåller en tidsfaktor

Tabell med ett urval av träningsdata.

Här representerar varje rad en person som har varit kund i minst ett år. Kolumnerna innehåller funktioner som beskriver kunden vid den tidpunkt då denne blev kund samt funktioner som representerar kundens aktivitet under den valda tidsramen.

Aktiviteten mäts genom antalet inköp som gjorts under de tre första månaderna och den totala penningutgiften under de tre första månaderna. Målkolumnen anger det totala belopp som spenderas under det första året. Det är det första årsvärdet som vi kommer att lära algoritmen för maskininlärning att förutsäga.

Lägg märke till att vi nu ställer en mycket exakt fråga som är definierad inom en tidsram: "Förutsäg hur mycket pengar en kund kommer att tillföra under det första året, baserat på kundens beteende under de tre första månaderna."

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!