Definieer machine learning-vragen
Een use case omzetten in een specifieke machine learning-vraag waar u actie op kunt ondernemen, kan een uitdaging zijn. Volg een gestructureerd kader om veelvoorkomende valkuilen te vermijden en een goed voorspellend model te genereren.
Het kader beschrijft hoe u een machine learning-vraag definieert en hoe u een goed gestructureerde gegevensverzameling samenstelt die klaar is voor gebruik. Voor meer informatie over het voorbereiden van een gegevensverzameling, raadpleegt u Uw gegevensverzameling voorbereiden voor training.
Het kader bestaat uit vier delen:
-
Gebeurtenistrigger
-
Doel
-
Kenmerken
-
Voorspellingspunt
Gebeurtenistrigger
De gebeurtenistrigger is een actie of een gebeurtenis die het aanmaken van nieuwe voorspellingen triggert. Iedere gebeurtenistrigger correspondeert met één rij gegevens.
Doel
Het doel is de waarde die u probeert te voorspellen. Het moet specifiek zijn, zowel in hoe u de waarde, de uitkomst, definieert als in het tijdsbestek waarin de waarde wordt bepaald, de zogenaamde horizon. De definitie van de uitkomst en de horizon is afhankelijk van de zakelijke context en de beschikbare gegevens. Zorg dat het doel relevant is voor de zakelijke context en denk na over welke actie u wilt nemen naar aanleiding van de voorspelde waarden.
Het doel wordt vertegenwoordigd in één kolom in de gegevensverzameling die u gebruikt om de machine learning-algoritmen te trainen.
Kenmerken
De kenmerken zijn de overige kolommen in uw gegevensverzameling die worden gebruikt om een doelwaarde te voorspellen. Dit zijn uw hypotheses over welke variabelen het doel zullen beïnvloeden. Machine learning-algoritmen gebruiken de kenmerken om tijdens de training algemene patronen te leren en voorspellingen te doen voor nieuwe rijen gegevens.
De kenmerkkolommen halen het meeste uit de trainingsgegevensverzameling waarbij ieder kenmerk in één kolom wordt vertegenwoordigd. Kenmerken moeten worden geaggregeerd tot het gebeurtenistriggerniveau of hoger.
Kenmerken kunnen vast zijn. Dit houdt in dat ze bekend zijn op het moment van of voorafgaand aan de gebeurtenistrigger. Ze kunnen ook vensterafhankelijk zijn. Dit houdt in dat de gegevens worden verzameld na de gebeurtenistrigger, maar vóór het voorspellingspunt.
Voorspellingspunt
Het voorspellingspunt is het aangewezen moment waarop u stopt met het verzamelen van gegevens voor kenmerken en het doel per rij voorspelt. De beslissing over waar het voorspellingspunt zou moeten liggen, is een balans tussen nauwkeurigheid, waarbij de voorspelling laat genoeg wordt gemaakt om voldoende tijd te hebben om goede kenmerkgegevens te kunnen verzamelen, en de mate waarin er actie op kan worden ondernomen, waarbij de voorspelling vroeg genoeg wordt gedaan om nog actie te kunnen ondernemen om de resultaten te beïnvloeden.
De tijd tussen de gebeurtenistrigger en het voorspellingspunt is het venster voor gegevensaccumulatie. Dit is de tijd die wordt gebruikt om kenmerkgegevens te verzamelen. De tijd tussen het voorspellingspunt en de horizon is het actievenster. Dit is de tijd die wordt gebruikt om actie te ondernemen op basis van wat is voorspeld. Het voorspellingspunt kan ergens tussen de gebeurtenistrigger en de doelhorizon vallen.
Voorbeelden: Gestructureerd kader
De volgende voorbeelden laten zien hoe het gestructureerde kader kan worden gebruikt voor verschillende zakelijke use cases. Voor een gedetailleerd, stapsgewijs voorbeeld van waar het kader wordt toegepast, raadpleegt u Het gestructureerde kader toepassen: Voorbeeld van klantverloop.
Levensduurwaarde klant
-
Gebeurtenistrigger: Een klant plaatst zijn/haar eerste bestelling
-
Doel: Totale bedrag van de bestelling voor de eerste drie jaar
-
Numerieke uitkomst: Bedrag in dollars
-
De horizon wordt gebaseerd op de gemiddelde lengte van de levensduur van de klant
-
-
Kenmerken: Bron van de lead, Bedrag eerste bestelling, Korting toegepast op eerste bestelling (Ja of Nee), Verzendstatus, Verzendregio, Aantal producten in de eerste bestelling
-
Voorspellingspunt: Drie maanden na de eerste bestelling
-
Machine learning-vraag: "Voorspelling van wat drie maanden na de eerste bestelling van een klant, diens totale bedrag voor bestellingen in dollars zal zijn gedurende de komende 33 maanden"
Nieuwe aankoop klant
-
Gebeurtenistrigger: Een klant plaatst een bestelling
-
Doel: Er wordt binnen zes maanden nog een bestelling geplaatst
-
Binair resultaat: Ja of Nee
-
De horizon is bepaald op basis van de gegevens dat 90 procent van de klanten dat opnieuw een bestelling plaatst, dat binnen zes maanden of minder doet
-
-
Kenmerken: Bron van verkeer, Aantal eerder bestellingen, Toegepaste korting, Verzendstatus, Verzendregio, Aantal bestelde producten, E-mail met verzendmelding geopend (Ja of Nee), Binnen 10 dagen teruggekeerd naar de website, Aangemeld voor marketingmails (Ja of Nee)
-
Voorspellingspunt: Eén week na bestelling
-
Machine learning-vraag: "Voorspel één week nadat een klant een bestelling heeft geplaatst of hij binnen zes maanden nog een bestelling zal plaatsen"
Salesleadconversie
-
Gebeurtenistrigger: Er wordt een saleslead aangemaakt
-
Doel: Converteert in gesloten verkoop binnen twaalf maanden na aanmaken
-
Binair resultaat: Ja of Nee
-
De horizon is gebaseerd op de historische duur van de verkoopcyclus
-
-
Kenmerken: Bron van lead, Sector, Grootte van bedrijf, Aantal contactpunten in de eerste 30 dagen, Afspraak gepland binnen 30 dagen (Ja of Nee), Juist telefoonnummer (Ja of Nee)
-
Voorspellingspunt: 30 dagen nadat de lead is aangemaakt
-
Machine learning-vraag: "Voorspel 30 dagen nadat een lead is gemaakt of die lead zal converteren in een gesloten deal binnen de komende 11 maanden"
Afstuderen student
-
Gebeurtenistrigger: Een student wordt geregistreerd
-
Doel: Student studeert binnen zes jaar na begin van studie af
-
Binair resultaat: Ja of Nee
-
De horizon is gebaseerd op de historische gegevens van hoe lang het duurt om af te studeren
-
-
Kenmerken: Type middelbare school, Gemiddelde cijfer middelbare school, SAT/ACT-score, Plaatsing examenscores, Afstand tussen middelbare school en campus, Beursniveau, Opleidingsniveau ouders, Gemiddelde cijfer eerste semester, Aantal punten eerste semester
-
Voorspellingspunt: Einde van eerste semester
-
Machine learning-vraag: "Voorspel aan het eind van het eerste semester of deze student aan het eind van het zesde jaar zal afstuderen"
Verkoop per maand
-
Gebeurtenistrigger: Eerste dag van de maand
-
Doel: Verkoop in eenheden gedurende de maand
-
Numerieke uitkomst: Aantal verkochte eenheden
-
De horizon is gebaseerd op de kalendermaand
-
-
Kenmerken: Producttype, Maandnaam, Kwartaal, Verkoop in dezelfde maand vorig jaar, Verkoop in dezelfde maand twee jaar geleden, Verkoop in vorige maand, Gemiddeld kortingspercentage, Marketinguitgaven
-
Voorspellingspunt: Eerste dag van de maand
-
Machine learning-vraag: "Voorspel op de eerste dag van de maand wat de totale eenheidverkoop zal zijn aan het einde van de maand"