Classificatieproblemen

Problemen waarbij de doelkolom een categorische kolom is, worden classificatieproblemen genoemd. Binaire classificatieproblemen hebben twee mogelijke categorieën, zoals Ja of Nee. Multiclass-classificatieproblemen hebben meer dan twee mogelijke categorieën.

De volgende voorbeelden leggen de twee typen classificatieproblemen uit. Ze bespreken ook een paar van de overwegingen voor de definitie van een machine learning-vraag.

Voorbeeld van binaire classificatie: opzegging door klanten

In dit model biedt een bedrijf een abonnementgebaseerd model. Er zijn gegevens verzameld over alle verleden en huidige klanten. Klanten hebben een label gekregen dat ze hun abonnement hebben opgezegd of niet.

De volgende tabel toont de verzamelde gegevens. Iedere rij vertegenwoordigt een unieke klant en de kolommen tonen verschillende functies die de klant beschrijven. De laatste kolom is ons doel. Dit is de binaire kolom die specificeert of de klant zijn of haar abonnement al dan niet heeft opgezegd (Ja of Nee).

Tabel met voorbeeldgegevens voor training. — Voorbeeld van verzamelde gegevens

We kunnen deze gegevensverzameling gebruiken om een machine learning-algoritme te leren om te voorspellen of een bepaalde klant zal vertrekken. Maar er kleven problemen aan deze aanpak:

De gegevensverzameling vergelijkt oude en nieuwe klanten en er is geen informatie over of de klanten die nog niet hebben geannuleerd, later in de tijd wel zullen annuleren.
Onlangs verworven klanten kunnen functies hebben die aangeven dat ze mogelijk gaan opzeggen (misschien weten we dat mannen tussen de twintig en dertig die in hun eerste maand niets aanschaffen, hun abonnement doorgaans snel daarna opzeggen). Maar omdat ze nieuw zijn en nog niet hebben opgezegd, trainen we het machine learning-algoritme om die functies te koppelen aan loyale klanten die niet zullen opzeggen.

U kunt dit soort valkuilen vermijden door heel precies te zijn over hoe u klantverloop definieert en hoe u een gegevensverzameling voor het probleem opzet. Het kost tijd en oefening om een gevoel te krijgen over hoe zakelijke vragen op een precieze en gepaste manier kunnen worden gesteld zodat ze kunnen worden gebruikt voor machine learning. Het kan nuttig zijn zowel goede als slechte voorbeelden te bekijken van hoe dit moet worden gedaan wanneer u aan te slag gaat met machine learning voor bedrijfsapplicaties. Als u niet zeker bent over hoe u uw bedrijfsvragen moet formuleren voor machine learning, overweeg dan om een tijdsbestek toe te voegen aan de definitie van uw meetcriteria. Deze strategie werkt vaak goed.

Een tijdsfactor toevoegen

Laten we even nadenken over het toevoegen van tijd aan de vraag. We kunnen bestuderen welke klanten hun services in de eerste zes maanden zullen opzeggen. We kunnen bijvoorbeeld hun gedrag in de eerste maand dat ze klant zijn gebruiken om te voorstellen of ze in de eerste zes maanden al dan niet zullen opzeggen. Nu hebben we een nauwkeurige manier om klantverloop te definiëren met een tijdsbestek. We kunnen als volgt een gegevensverzameling aggregeren:

Hier vertegenwoordigt iedere rij een klant, maar nu voegen we alleen klanten toe die historisch gezien ten minste zes maanden klant zijn geweest. Voor elk van hen wordt hun aantal aankopen en de totale besteding gedurende de eerste maand gebruikt om te voorspellen of ze na zes maanden zullen opzeggen. Voor deze vraag is het niet relevant of ze al dan niet na hun eerste zes maanden hebben opgezegd. De doelkolom vertelt ons alleen of ze hun abonnement binnen de eerste zes maanden hebben opgezegd.

Nu hebben we een gegevensverzameling voor training waarbij de rijen met elkaar kunnen worden vergeleken. Zodra we een model met deze gegevensverzameling hebben getraind, kunnen we nieuwe klanten die ten minste één maand geabonneerd zijn en hun gedrag in die eerste maand plus ons getrainde model gebruiken om te voorspellen of ze in hun eerste zes maanden zullen opzeggen.

Voorbeeld van multiclass-classificatie: irisbladeren

In dit voorbeeld hebben we gegevens over een grote sample met irissen. Voor iedere bloem hebben we de lengte en de breedte van hun bladen en kelkbladen vastgelegd evenals het soort iris waar de bloem toe behoort. Als we in de toekomst een nieuwe iris tegenkomen, willen we graag kunnen voorspellen wat voor soort iris het is op basis van de lengte en breedte van de kelkbladen en de lengte en breedte van de bladen.

We kunnen de verzamelde gegevens in een machine learning-algoritme invoeren dat geschikt is voor de historische gegevens. Dit zou een voorspeld soort opleveren op basis van de waarden van de overige vier variabelen. De output is een categorie van een discrete set categorieën.

Let wel dat we werken met de aanname dat de gegevens waarvoor we in de toekomst voorspellingen doen, statistisch gezien lijken op de gegevens die we hebben gebruikt om het algoritme mee te trainen. Als er slechts drie verschillende soorten irissen in de gegevensverzameling voor de training zitten, dan kunnen we dit getrainde algoritme alleen gebruiken om voorspellingen te doen voor bloemen van die drie soorten. We kunnen niet verwachten dat een machine learning-algoritme voorspellingen doet voor patronen waarop het niet is getraind door de gegevensverzameling voor training.

GERELATEERD LESMATERIAAL:

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback