Definiera frågor för maskininlärning
Det kan vara en utmaning att omvandla ett användningsområde till en specifik och användbar fråga för maskininlärning. Följ ett strukturerat ramverk för att undvika vanliga fallgropar och skapa en bra prediktiv modell.
Ramverket beskriver hur man definierar en fråga för maskininlärning och hur man samlar in en välstrukturerad uppsättning data som är redo att användas. För mer information om hur du förbereder en datauppsättning, se Gör din datauppsättning redo för träning.
Ramverket består av fyra delar:
-
Händelseutlösare
-
Mål
-
Funktioner
-
Prognospunkt
Händelseutlösare
Händelseutlösaren är en åtgärd eller händelse som utlöser skapandet av nya prognoser. Varje händelseutlösare motsvarar en enda datarad.
Mål
Målet är det värde som du försöker förutsäga. Det måste vara specifikt både när det gäller hur du definierar värdet – resultatet – och den tidsram inom vilken värdet fastställs – horisonten. Hur resultatet och tidshorisonten definieras beror på affärssammanhanget och tillgängliga data. Se till att målet är relevant för affärssammanhanget och fundera på vilken åtgärd du vill vidta med de förutspådda värdena.
Målet representeras i en enda kolumn i den datauppsättning du använder för att träna algoritmerna för maskininlärning.
Funktioner
Funktionerna är de andra kolumnerna i datauppsättningen som används för att förutsäga ett målvärde. De är dina hypoteser om vilka variabler som kommer att påverka målet. Algoritmer för maskininlärning använder funktionerna för att lära sig allmänna mönster under träningen och för att göra prognoser för nya datarader.
Funktionskolumnerna utgör större delen av träningsdatauppsättningen, där varje funktion representeras som en enda kolumn. Funktioner måste aggregeras till händelseutlösarnivå eller högre.
Funktionerna kan vara fasta, vilket innebär att de är kända vid eller före händelseutlösaren, eller fönsterberoende, vilket innebär att data samlas in efter händelseutlösaren men före prognospunkten.
Prognospunkt
Prognospunkten är den tidpunkt då du slutar samla in data för funktioner och förutsäger målet för varje rad. Att bestämma var prognospunkten ska ligga är en balans mellan noggrannhet – att förutsäga tillräckligt sent för att ha samlat in kvalitetsdata om funktioner – och handlingsförmåga – att förutsäga tillräckligt tidigt för att kunna vidta åtgärder för att påverka resultatet.
Tiden mellan händelseutlösaren och prognospunkten är datainsamlingsfönstret. Detta är den tid som används för att samla in funktionsdata. Tiden mellan prognospunkten och horisonten är handlingsfönstret, dvs. den tid som används för att agera på det som har förutsagts. Prognospunkten kan ligga var som helst mellan händelseutlösaren och målhorisonten.
Exempel: Strukturerat ramverk
Följande exempel visar hur det strukturerade ramverket kan användas för olika affärsanvändningsområden. För ett fördjupningsexempel där ramverket tillämpas steg för steg, se Tillämpning av det strukturerade ramverket: Exemplet kundförlust.
Kundens livstidsvärde
-
Händelseutlösare: En kund gör sin första beställning
-
Mål: Totalt beställningsbelopp för de tre första åren
-
Numeriskt resultat: Belopp i dollar
-
Horisonten är baserad på kundernas genomsnittliga livscykellängd
-
-
Funktioner: Ämneskälla, Belopp för första beställningen, Rabatt på första beställningen (ja eller nej), Leveransstat, Leveransregion, Antal produkter i första beställningen
-
Prognospunkt: Tre månader efter den första beställningen
-
Fråga för maskininlärning: "Förutsäg tre månader efter en kunds första beställning vilket kundens totala beställningsbelopp i dollar kommer att vara under de kommande 33 månaderna"
Nya köp av kunden
-
Händelseutlösare: En kund gör en beställning
-
Mål: En ny beställning görs inom sex månader
-
Binärt resultat: Ja eller nej
-
Horisonten fastställd genom data att 90 procent av de kunder som gör ett nytt köp gör det inom sex månader
-
-
Funktioner: Trafikkälla, Antal tidigare beställningar, Använd rabatt, Leveransstat, Leveransregion, Antal beställda produkter, Öppnat e-postmeddelande om leverans (ja eller nej), Återvänt till webbplatsen inom tio dagar, Anmäld till e-postmeddelanden för marknadsföring (ja eller nej)
-
Prognospunkt: En vecka efter beställning
-
Fråga för maskininlärning: "Förutsäg en vecka efter att en kund har gjort en beställning om kunden kommer att göra en ny beställning inom sex månader"
Konvertering av försäljningsämnen
-
Händelseutlösare: Ett försäljningsämne skapas
-
Mål: Konverterar till slutförda vinster senast 12 månader efter skapandet
-
Binärt resultat: Ja eller nej
-
Horisonten baseras på den historiska längden på försäljningscykeln
-
-
Funktioner: Ämneskälla, Bransch, Företagsstorlek, Antal kontaktpunkter under de första 30 dagarna, Möte planerat inom 30 dagar (ja eller nej), Korrekt telefonnummer (ja eller nej)
-
Prognospunkt: 30 dagar efter att ämnet har skapats
-
Fråga för maskininlärning: "Förutsäg 30 dagar efter att ett ämne har skapats om ämnet kommer att konverteras till en slutförd realiserad möjlighet inom de kommande 11 månaderna"
Examen för elever
-
Händelseutlösare: En elev godkänns
-
Mål: Studerande tar examen inom sex år från programmets start
-
Binärt resultat: Ja eller nej
-
Horisonten är baserad på den historiska längden på tiden till examen
-
-
Funktioner: Gymnasietyp, Betyg från gymnasiet, SAT/ACT-poäng, Betyg från placeringsprov, Avstånd från gymnasiet till campus för inskrivning, Stipendienivå, Föräldrarnas utbildningsnivå, Betyg från första terminen, Antal poäng första terminen
-
Prognospunkt: Slutet av den första inskrivna terminen
-
Fråga för maskininlärning: "Förutsäg i slutet av den första terminen om en elev kommer att ta examen i slutet av det sjätte året"
Försäljning per månad
-
Händelseutlösare: Första dagen i månaden
-
Mål: Försäljning i enheter under månaden
-
Numeriskt resultat: Antal sålda enheter
-
Horisonten är baserad på kalendermånaden
-
-
Funktioner: Produkttyp, Månadsnamn, Kvartal, Förra årets försäljning samma månad, Förrförra årets försäljning samma månad, Förra månadens försäljning, Genomsnittlig rabatt i %, Marknadsföringsutgifter
-
Prognospunkt: Första dagen i månaden
-
Fråga för maskininlärning: "Förutse månadens första dag vilken den totala försäljningen per enhet kommer att vara i slutet av månaden"