Ga naar hoofdinhoud Ga naar aanvullende inhoud

Uw gegevensverzameling voorbereiden voor training

U traint een gegevensverzameling om uw machine learning-vraag te beantwoorden. De gegevensverzameling voor training omvat een kolom per kenmerk en een kolom die het doel bevat. Machine learning-algoritmen leren algemene patronen uit deze rijen met gegevens om een model te genereren dat het doel kan voorspellen.

Om de gegevensverzameling voor te bereiden voor machine learning, moet u uw gegevens begrijpen en de noodzakelijke gegevenspunten verzamelen. Het kan zijn dat u ook een deel van de gegevens moet transformeren en gegevens moet verwijderen die niet relevant zijn voor uw use case.

Welke gegevens zou u moeten verzamelen?

Definieer uw machine learning-vraag heel nauwkeurig en bepaal wat moet worden geaggregeerd om die vraag te benaderen:

  • Als u wilt voorspellen welke klanten zullen vertrekken, dient u een gegevensverzameling samen te stellen waarbij iedere rij een klant vertegenwoordigt en iedere kenmerkkolom een kenmerk vertegenwoordigt dat de klant beschrijft. De doelkolom geeft aan of die klant in een bepaalde tijdsperiode al dan niet zijn of haar abonnement heeft opgezegd.

  • Als u wilt voorspellen wat de verkoopcijfers zullen zijn voor een bepaalde maand en regio, dient u een gegevensverzameling samen te stellen waarin iedere rij een bepaalde maand voor een bepaalde regio vertegenwoordigt en iedere kenmerkkolom een kenmerk vertegenwoordigt dat de zaken in die maand in die regio beschrijft. De doelkolom zijn de verkoopinkomsten voor die regio in die maand.

Probeer erachter te komen welke dingen het doel kunnen beïnvloeden en kijk of die gegevens kunnen worden verzameld. Onthoud dat de voorspellende algoritmen alleen patronen kunnen identificeren die te vinden zijn. Misschien moet u extra kenmerken verzamelen of maken om meer informatie te extraheren.

U dient bovendien te bepalen hoeveel gegevens u moet accumuleren voordat u een nauwkeurige voorspelling kunt doen. Hoelang duurt het voordat de gebeurtenis representatief wordt? Bekijk de volgende voorbeelden:

  • Klanten moeten 60 dagen lid zijn geweest voordat u kunt voorspellen of ze vóór dag 90 zullen vertrekken.

  • De kosten van verzekeringsclaims kunnen niet voor een paar maanden bekend zijn en daarom kunt u claims die minder dan zes maanden oud zijn, uitsluiten.

Maak onderscheid tussen tijdsvariabele en niet-tijdsvariabele gegevens. Kunnen gegevens met een tijdstempel correct worden geaggregeerd?

Zijn gegevens beschikbaar op het moment van voorspelling?

Zorg dat alle kenmerken die u toevoegt aan de gegevensverzameling voor training ook beschikbaar zijn voor toekomstige voorspellingen. Het is een veelvoorkomende fout om het model te trainen met kenmerken die u beschikbaar hebt gesteld voor historische gegevens, maar die niet beschikbaar zijn op het moment dat u in de toekomst een voorspelling genereert. Wanneer u voorspellingen genereert voor nieuwe gegevens, moet het machine learning-algoritme waarden bevatten voor alle kenmerken die beschikbaar waren in de gegevensverzameling voor training.

Is het beter om meer gegevens te hebben?

Voorbeeldgrootte

Hoe groter het volume gegevens, des te betrouwbaarder de modellen worden. Eventuele aanvullende, relevante gegevenspunten zullen helpen, of het nou nieuwe of historische observaties zijn.

Aantal kenmerken

Het kan verleidelijk zijn om alle mogelijke variabelen toe te voegen aan het model, ongeacht de relevantie voor de beoogde uitkomst. Maar eenvoud werkt doorgaans beter. Het is over het algemeen beter om kleinere aantallen kenmerken in het model te gebruiken.

Als er meer kenmerken zijn, is het risico groter dat de werkelijke achterliggende relatie die u wilt onthullen, juist wordt verhuld. Het voorspellende model kan alle kenmerken gebruiken om een reeks complexe regels te genereren die goed werken met de gegevens die zijn gebruikt om het model te trainen. Maar het voorspelde doel kan in werkelijkheid door één of twee kenmerken worden beïnvloed. Het model is mogelijk niet goed in het generaliseren van gegevens die buiten de gegevensverzameling vallen die zijn gebruikt voor de training. Dit kan resulteren in minder goede voorspellingen wanneer dit model op nieuwe gegevens wordt toegepast.

Overfitting

Overfitting houdt in dat een model te complex is en daardoor niet betrouwbaar is voor het voorspellen van nieuwe gegevens. Overfitting treedt vaak op wanneer er te veel kenmerken ten opzichte van het aantal beschikbare gegevenspunten zijn. Zo hebt u mogelijk slechts 50 rijen met gegevens, maar 100 kenmerkkolommen in de gegevensverzameling.

Zijn uw trainingsgegevens relevant?

Een machine learning-algoritme vindt patronen in de gegevens die u er in stopt en gebruikt die patronen om in de toekomst voorspellingen te genereren voor gegevens. Wanneer u voorspellingen voor nieuwe gegevens genereert, gaat u ervan uit dat dat ze vergelijkbaar zijn met de trainingsgegevens. Daarom is het belangrijk dat de gegevensverzameling voor training statistisch lijkt op de gegevens waar u voorspellingen voor wilt genereren.

Als de markt of de zakelijke activiteiten aanzienlijk anders zijn geworden dan wat uw gegevensverzameling voor training beschrijft, gebruikt u hoogstwaarschijnlijk een gedateerde gegevensverzameling die zal leiden tot onjuiste voorspellingen. Het kan zijn dat u een nieuwe gegevensverzameling voor training moet maken en alleen gegevens moet gebruiken die zijn verzameld nadat de veranderingen zijn opgetreden.

Bekijk het voorbeeld over verkoopvoorspellingen in Meer informatie over machine learning. Stel dat we gegevens in ons algoritme hebben ingevoerd die de advertentiekosten op radio, televisie en in de krant en de verkoopwinsten voor kwartalen uit het verleden vertegenwoordigen. De gegevens zijn echter verzameld in de jaren tachtig. Nu maken we geen reclame meer voor dat product meer op de radio en adverteren we het product vrijwel exclusief online. Ons getrainde algoritme zou slecht presteren in het voorspellen van verkoopcijfers voor het huidige kwartaal, omdat de trainingsgegevens niet representatief zijn voor de actuele gang van zaken.

Bekijk de gegevens

Gebruik uw zakelijke kennis om de gegevens te begrijpen en te valideren. Als de gegevens niet aansluiten op uw aannames, zou dat dan kunnen leiden tot problemen met de gegevens of zou het kunnen zijn dat uw aannames niet helemaal kloppen?

Onbetrouwbare kenmerken verwijderen

Overweeg het uitsluiten van kolommen uit de gegevensverzameling als:

  • Er een hoge concentratie van één waarde is (lage kardinaliteit). Bijvoorbeeld: een kolom met de waarden 'rood', 'groen', 'blauw' waarin 90 procent van de waarden 'rood' is.

  • De waarden zijn zeer uniek (hoge kardinaliteit).

  • De meeste waarden zijn nul.

Doe iets aan gecorreleerde kenmerken

Verwijder overtollige kenmerken zoals sterk gecorreleerde kenmerken die dezelfde of zeer vergelijkbare informatie geven. Overweeg één kenmerk te selecteren uit groepen die hetzelfde gedrag in de gegevens lijken te beschrijven. Probeer te bepalen of er één kenmerk is dat een ander kenmerk stimuleert.

Vervang null-waarden

Onderzoek uw gegevens om te kijken of er ontbrekende waarden zijn in de belangrijkste gegevenspunten zoals het doel of de kernkenmerken. Om waarden uit een eenvoudige kolom te gebruiken, kunt u null-waarden vervangen met 'overig' of 'onbekend'. Het kan ook zijn dat u de gegevensverzameling opnieuw moet beoordelen.

Streefbereik

Bekijk de verdeling van de gegevens. Als de verdeling van uw doelgegevens te breed is ten opzichte van uw steekproef, kan het lastig zijn om patronen in uw gegevens te vinden.

Wat is het bereik van de gegevenswaarden? Het voorspellen van gegevenswaarden buiten het bereik gaat gepaard met verschillende uitdagingen. Lees meer in Extrapolatie en interpolatie.

Zijn er afwijkingen in de verdeling? Onevenredige waarden, staartwaarden en multimodale vormen in uw gegevens kunnen extra gegevenstransformatie vereisen of meer bewerking van de kenmerken. Probeer categorieën met een laag volume te groeperen en staartwaarden in numerieke kenmerken af te ronden of te verwijderen.

Verwijder uitschieters

Overweeg om observaties met uitschietende waarden in de kenmerkkolommen te verwijderen. Uitschieters kunnen het vermogen van algoritme belemmeren om algemene patronen in de gegevens te zien. Het kan beter zijn een kleinere subset van gegevens te bekijken met een krappere verdeling in de doelkolom.

Groepering van gegevens

Wellicht wilt u uw resultaten verbeteren door de gegevens in verschillende gegevensverzamelingen te splitsen om vervolgens daarmee afzonderlijke modellen te trainen. Baseer de groepering van de gegevens op één of meer kenmerken.

Lekken van gegevens

Wanneer gegevens lekken betekent dat dat de gegevens die zijn gebruikt om een machine learning-algoritme te trainen, de informatie omvatten die u probeert te voorspellen.

GERELATEERD LESMATERIAAL:

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!