Ga naar hoofdinhoud Ga naar aanvullende inhoud

Regressieproblemen

Regressieproblemen zijn machine learning-problemen met een numerieke doelkolom. Het volgende voorbeeld laat u zien hoe u een bedrijfsvraag nauwkeurig kunt kaderen en hoe u vervolgens een gegevensverzameling voor training samenstelt waarbij alle kenmerken gelijk zijn. Dit biedt een goede basis voor het genereren van een voorspellend regressiemodel.

Voorbeeld van regressie: Levensduurwaarde klant

We beginnen door aan te nemen dat een machine learning-model dat is getraind op basis van historische klanten, leert hoe het de levensduurwaarde van een klant kan voorspellen aan de hand van verschillende kenmerken die die voorspelling beïnvloeden. We stellen een gegevensverzameling samen met historische informatie over alle klanten uit verleden en heden. Er is één rij per klant en de kolommen vertegenwoordigen kenmerken die de klant beschrijven: klant-ID, geslacht, leeftijd, de datum waarop hij/zij klant is geworden, postcode, het aantal aankopen dat hij/zij heeft gedaan en het totale bedrag dat de klant heeft besteed.

Voorbeeld van verzamelde gegevens

Tabel met voorbeeldgegevens voor training.

We kunnen de levenduurwaarde van de klant definiëren als de totale besteding en de gegevensverzameling invoeren in een machine learning-algoritme. Het leert dan de totale besteding te voorspellen. Als er in de toekomst nieuwe klanten worden verworven, kunnen we het getrainde algoritme gebruiken om te voorspellen hoeveel ze zullen besteden gedurende de periode dat ze klant zijn. Maar er kleven een aantal problemen aan deze aanpak:

  • De gegevensverzameling kan personen omvatten die één dag, één maand of één jaar klant zijn geweest. De waarde van de totale besteding weerspiegelt niet hoeveel een klant zal uitgeven, maar het totale bedrag dat hij/zij tot nu toe heeft besteed.

  • Een klant wiens account één dag oud is, kan de kenmerken hebben van een klant met een hoog rendement. Maar omdat deze persoon pas gisteren klant is geworden, heeft hij of zij pas één aankoop gedaan en nog niet veel geld besteed. Door deze persoon toe te voegen aan de gegevensverzameling voor training, leert het machine learning-algoritme onterecht dat dit het type klant is dat niet veel geld oplevert.

  • Stel we hebben een nieuwe klant die in zijn eerste maand drie keer per week producten heeft besteld met in totaal twaalf aankopen. Iemand anders die al één jaar klant is en één keer per maand iets heeft aangeschaft, heeft misschien dezelfde hoeveelheid geld besteed. Het machine learning-algoritme zou deze twee klanten als gelijk zien wat betreft de levensduurwaarde, terwijl de persoon die pas één maand klant is, mogelijk op de lange termijn veel waardevoller zal zijn.

Om dit soort valkuilen te vermijden, moeten we heel precies zijn in hoe we de levensduurwaarde van de klant definiëren en hoe we een gegevensverzameling voor het probleem moeten voorbereiden. Een goede manier om dit te realiseren is door tijd toe te voegen als factor in de probleemdefinitie.

Een tijdsfactor toevoegen

Om een tijdsfactor toe te voegen, beginnen we door de waarde voor het eerste jaar te definiëren als het totale bedrag dat een persoon in zijn/haar eerste jaar als klant besteedt. We kunnen vervolgens het gedrag van een klant in diens eerste drie maanden gebruiken als kenmerk om te voorspellen wat zijn/haar totale besteding in het eerste jaar als klant zal zijn. De waarde van het eerste jaar is een nauwkeurige definitie van een metrisch gegeven dat een tijdsbestek gebruikt. Het voordeel van een dergelijk nauwkeurig gedefinieerd metrisch gegeven is dat het alle voorbeelden in onze gegevensverzameling voor training op gelijke voet zet.

Let op: omdat we nu kijken naar het totale bedrag dat mensen in hun eerste jaar als klant besteden, moeten we de gegevensverzameling voor training beperken tot personen die ten minste één jaar klant zijn. We kunnen zo'n gegevensverzameling als volgt voorbereiden:

Gegevensverzameling met een tijdsfactor

Tabel met voorbeeldgegevens voor training.

Hier vertegenwoordigt iedere rij een persoon die ten minste één jaar klant is. De kolommen bevatten kenmerken die de klant beschrijven op het moment dat hij/zij klant werd en de kenmerken die de activiteit van de klant vertegenwoordigen gedurende het geselecteerde tijdsbestek.

De activiteit wordt gemeten op basis van het aantal aankopen dat in de eerste drie maanden is gedaan en de totale besteding in de eerste drie maanden. De doelkolom vertegenwoordigt de totale besteding in het eerste jaar. Dat is de waarde van het eerste jaar dat we het machine learning-algoritme leren te voorspellen.

Kijk hoe we nu een zeer nauwkeurig geformuleerde vraag stellen die is gedefinieerd binnen een tijdsbestek: "Voorspel hoeveel geld een klant binnen zal brengen gedurende het eerste jaar dat hij klant is op basis van zijn gedrag gedurende de eerste drie maanden."

GERELATEERD LESMATERIAAL:

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!