Machine learning begrijpen
Machine learning is de praktijk waarbij wiskundige algoritmen worden gebruikt om patronen in gegevens te herkennen en die patronen vervolgens te gebruiken om voorspellingen te doen.
Een eenvoudig voorbeeld: Verkoop voorspellen
Laten we, om machine learning beter te begrijpen, kijken naar een eenvoudig voorbeeld dat de verkoop van een product in het volgende kwartaal voorspelt. We weten misschien dat de verkoop van dit product wordt beïnvloed door de hoeveelheid geld die wordt besteed aan reclame voor het product. Door naar de gegevens van voorgaande kwartalen te kijken, weten we:
-
Hoeveel geld er is uitgegeven (in duizenden dollars) aan reclame voor het product op televisie.
-
Wat de verkoop was (in miljoenen dollars).
Wanneer we de gegevens in een grafiek uitzetten, is het duidelijk dat hoe meer geld er wordt besteed aan reclame voor ons product op televisie, hoe meer we verkopen.
Grafiek van verkoop versus uitgaven aan televisiereclame

Om de verkoopopbrengst in het volgende zakelijke kwartaal te voorspellen, kunnen we een functie toepassen op de historische gegevens:
Een lineaire functie wordt toegepast op de gegevens

Op basis van het bedrag dat we hebben begroot om in het volgende zakelijke kwartaal aan televisiereclame te besteden, kunnen we de functie evalueren op de waarde die overeenkomt met dit bedrag. Stel dat we van plan zijn om volgend kwartaal $ 225.000 uit te geven aan televisiereclame. Het evalueren van de functie op 225 geeft ons 17,7, en we kunnen een verkoop van $ 17,7 miljoen voorspellen voor het volgende kwartaal.
De functie wordt geëvalueerd om de verkoop te voorspellen voor een specifiek bedrag dat aan reclame wordt besteed

Om de nauwkeurigheid van onze voorspelling verder te verbeteren, kunnen we proberen een functie te vinden die beter bij de historische gegevens past — zoals weergegeven in de afbeelding — en voorspellingen doen op basis van deze functie.
Een functie die beter bij de gegevens past

In dit voorbeeld hebben we alleen gekeken naar de hoeveelheid geld die is besteed aan televisiereclame. We zouden ook andere factoren kunnen overwegen die toekomstige verkopen beïnvloeden. In plaats van verkoop alleen als een functie van uitgaven aan televisiereclame te hebben, zouden we bijvoorbeeld verkoop kunnen hebben als een functie van de drie variabelen uitgaven aan televisiereclame, uitgaven aan radioreclame en uitgaven aan krantenreclame. We kunnen zoveel variabelen gebruiken als we willen, maar het algemene idee is hetzelfde.
Concepten van machine learning
Vanuit een gegevensperspectief wordt het machine learning-probleem gereduceerd tot het samenstellen van een tabel met historische gegevens. We hebben één kolom in de tabel die vertegenwoordigt wat we willen voorspellen, wat in ons vorige voorbeeld de verkoop was. In de taal van machine learning wordt deze kolom het doel genoemd. De andere kolommen worden functies genoemd en worden gebruikt om de waarde van de doelkolom te voorspellen. De functies zijn variabelen die mogelijk kunnen bijdragen aan de doeluitkomst. Het fundamentele idee achter machine learning is:
Gegeven een gegevensset, vinden we een functie die bij die gegevens past, zodat we kunnen voorspellen wat de waarde voor de doelkolom zal zijn, gegeven de waarden voor de functiekolommen.
Er zijn verschillende geavanceerde machine learning-algoritmen ontwikkeld om verschillende soorten machine learning-problemen op te lossen. Wanneer we gegevens aan een machine learning-algoritme voeden en het patronen laten leren, zeggen we dat we een machine learning-algoritme trainen.
In Qlik Predict worden machine learning-problemen onderverdeeld in classificatie-, regressie- of tijdreeksproblemen, afhankelijk van:
-
Of het te voorspellen doel een categorische of numerieke waarde is. Zie voorbeelden in Classificatieproblemen en Regressieproblemen.
-
Of u gegevens moet voorspellen voor specifieke toekomstige tijdsperioden. Zie een voorbeeld in Tijdreeks problemen.
Geautomatiseerde machine learning
Met geautomatiseerde machine learning worden de best passende functies automatisch gevonden tijdens de training op uw historische gegevens. U kunt eenvoudig een gegevensset uploaden, een doel selecteren en vervolgens de training starten met een druk op de knop.
U krijgt echter alleen een goede voorspellende uitvoer als u goede invoer heeft. Een machine learning-experiment heeft een goed gedefinieerde machine learning-vraag nodig en een gegevensset die is ontworpen om die vraag te beantwoorden. Om aan de slag te gaan met uw eerste experiment, moet u deze stappen volgen:
- Definieer een machine learning-vraag
Zet uw zakelijke use case om in een specifieke vraag met behulp van een gestructureerd raamwerk.
- Bereid uw trainingsgegevensset voor
Verzamel gegevens van goede kwaliteit die relevant zijn voor uw use case.
- Maak een geautomatiseerd machine learning-experiment
Wanneer de voorbereidingen zijn voltooid, kunt u beginnen met experimenteren.