Ga naar hoofdinhoud Ga naar aanvullende inhoud

Modelalgoritmen begrijpen

Een algoritme is een mathematisch recept dat een model produceert. Het neemt een invoer, namelijk uw gegevensverzameling, en produceert een uitvoer, het model. Elk algoritme heeft verschillende sterke en zwakke punten.

Wanneer u een doel kiest, selecteert AutoML automatisch de beste algoritmen voor de use case. Het doel bepaalt wat voor type algoritmen moeten worden gebruikt.

Algoritmen die het beste met binaire en multiclass-classificatieproblemen functioneren, worden gebruikt wanneer:

  • Het doel maar twee unieke waarden heeft zoals "Zal een klant zijn/haar abonnement beëindigen?" Ja of nee.

  • Het doel is een tekenreekswaarde met drie tot tien unieke waarden. Bijvoorbeeld: de optimale campagnemix bepalen waarbij het doel een van de waarden is, zoals 'rood', 'blauw', 'groen' of 'geel'.

Algoritmen die het beste met regressieproblemen werken, worden gebruikt als het doel een numerieke kolom is. Voorspellen hoeveel een klant zal aanschaffen is een voorbeeld van een regressieprobleem.

Algoritmen voor binaire en multiclass-classificatieproblemen

AutoML maakt gebruik van de volgende algoritmen voor binaire en multiclass-classificatieproblemen:

  • Catboost-classificatie

  • Elastic Net-regressie

  • Gaussian Naive Bayes

  • Lasso-regressie

  • LightGBM-classificatie

  • Logistische regressie

  • Random Forest-classificatie

  • XGBoost-classificatie

Algoritmen voor regressieproblemen

AutoML maakt gebruik van de volgende algoritmen voor regressieproblemen:

  • Catboost-regressie

  • LightGBM-regressie

  • Lineaire regressie

  • Random Forest-regressie

  • SGD-regressie

  • XGBoost-regressie

Verschillende typen modellen

De modeltypen kunnen worden verdeeld in regressiemodellen, ensembles en andere typen machine learning-modellen.

Regressiemodellen

Regressiemodellen of algemene lineaire modellen, zijn modellen die zoeken naar trends in het domein van iedere variabele, onafhankelijk van elkaar. Zoals de algebraïsche vergelijking y = mx+b, wil het algoritme een m en een b kiezen die de gemiddeld hoogste nauwkeurigheid produceert voor iedere x- en y-waarde. Het is doorgaans hetzelfde concept als er meer dan één variabele is. Lineaire regressie en logistische regressie zijn voorbeelden van regressiemodellen voor respectievelijk regressieproblemen en classificatieproblemen.

Voor classificatieproblemen is de uitvoer van het regressiemodel de waarschijnlijkheid dat het voorbeeld de positieve klasse is. Dit betekent dat y gelijk is aan de waarschijnlijkheid en niet aan de daadwerkelijke waarde.

Regressies zijn goed in het vinden van lineaire trends in gegevens, maar soms is er een relatie die niet lineair is. Een regressie kan pas goed bij een niet-lineair patroon passen als er gegevenstransformatie heeft plaatsgevonden voordat het model is getraind. Het voordeel van goede kennis van lineaire relaties is dat lineaire relaties over het algemeen het beste werken met extrapolatie. In de tabel staan lijsten van de voor- en nadelen van regressiemodellen.

Voordelen Nadelen
  • Goed in extrapoleren

  • Goed in het vinden van lineaire trends bij onafhankelijke variabelen

  • Goed met veel gegevens uit dezelfde populatie

  • Eenvoudig te begrijpen

  • Niet goed in het exploiteren van patronen tussen variabelen

  • Niet goed in het passen van niet-lineaire trends

  • Soms te simplistisch

Ensemblemodellen

Ensembles ontstaan wanneer meerdere modellen worden gecombineerd. Dit kan worden vergeleken met een groep mensen met verschillende achtergronden die gaan stemmen om vervolgens de gemiddelde stem te gebruiken om een beslissing te nemen. Random Forest en XGBoost zijn voorbeelden van ensemblemodellen.

Ensembles kunnen zowel regressie- als classificatieproblemen oplossen. Ze zijn goed in het vinden van niet-lineaire relaties en in het ontdekken hoe interacties tussen variabelen invloed hebben op het doel. Ensembles zijn goed in het leren van de patronen in de gegevensverzameling waarmee ze zijn getraind, maar ze zijn minder goed in het voorspellen van waarden buiten de gegevens die ze hebben gezien. In de tabel staan lijsten van de voor- en nadelen van ensemblemodellen.

Voordelen Nadelen
  • Goed in het exploiteren van patronen tussen variabelen

  • Goed in het vinden van niet-lineaire trends

  • Goed met veel gegevens uit dezelfde populatie

  • Niet goed in extrapoleren

  • Niet eenvoudig te interpreteren

Andere modeltypen

Andere modeltypen zijn alle overige modeltypen. Voorbeelden zijn onder meer Nearest Neighbors en Gaussian Naive Bayes. Deze typen modellen proberen doorgaans een nieuwe ruimtelijke vertegenwoordiging van de gegevens te maken. Ze doen dit vaak door een soort afstandmeting te maken die meet hoe verschillend twee records zijn. Ze kunnen goed zijn in het verwerken van niet-lineaire trends, maar de berekeningen zijn veel duurder omdat de gegevensverzameling groter is. In de tabel staan lijsten van de voor- en nadelen van andere modellen.

Voordelen Nadelen
  • Goed in het exploiteren van patronen tussen variabelen

  • Goed in het vinden van niet-lineaire trends

  • Niet goed in extrapoleren

  • Berekeningen veel duurder voor grotere gegevensverzamelingen

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!