Modelalgoritmen begrijpen

Een algoritme is een mathematisch recept dat een model produceert. Het neemt een invoer, namelijk uw gegevensverzameling, en produceert een uitvoer, het model. Elk algoritme heeft verschillende sterke en zwakke punten.

Wanneer u een doel kiest, selecteert Qlik Predict automatisch de beste algoritmen voor het gebruiksscenario. Het doel bepaalt wat voor type algoritmen moeten worden gebruikt.

Algoritmen die het beste met binaire en multiclass-classificatieproblemen functioneren, worden gebruikt wanneer:

Het doel maar twee unieke waarden heeft zoals "Zal een klant zijn/haar abonnement beëindigen?" Ja of nee.
Het doel is een tekenreekswaarde met drie tot tien unieke waarden. Bijvoorbeeld: de optimale campagnemix bepalen waarbij het doel een van de waarden is, zoals 'rood', 'blauw', 'groen' of 'geel'.

Algoritmen die het beste met regressieproblemen werken, worden gebruikt als het doel een numerieke kolom is. Voorspellen hoeveel een klant zal aanschaffen is een voorbeeld van een regressieprobleem.

Algoritmen voor binaire en multiclass-classificatieproblemen

Qlik Predict maakt gebruik van de volgende algoritmen voor binaire en multiclass-classificatieproblemen:

Catboost-classificatie
Elastic Net-regressie
Gaussian Naive Bayes
Lasso-regressie
LightGBM-classificatie
Logistische regressie
Random Forest-classificatie
XGBoost-classificatie

Algoritmen voor regressieproblemen

Qlik Predict maakt gebruik van de volgende algoritmen voor regressieproblemen:

Catboost-regressie
LightGBM-regressie
Lineaire regressie
Random Forest-regressie
SGD-regressie
XGBoost-regressie

Verschillende typen modellen

De modeltypen kunnen worden verdeeld in regressiemodellen, ensembles en andere typen machine learning-modellen.

Regressiemodellen

Regressiemodellen of algemene lineaire modellen, zijn modellen die zoeken naar trends in het domein van iedere variabele, onafhankelijk van elkaar. Zoals de algebraïsche vergelijking y = mx+b, wil het algoritme een m en een b kiezen die de gemiddeld hoogste nauwkeurigheid produceert voor iedere x- en y-waarde. Het is doorgaans hetzelfde concept als er meer dan één variabele is. Lineaire regressie en logistische regressie zijn voorbeelden van regressiemodellen voor respectievelijk regressieproblemen en classificatieproblemen.

Voor classificatieproblemen is de uitvoer van het regressiemodel de waarschijnlijkheid dat het voorbeeld de positieve klasse is. Dit betekent dat y gelijk is aan de waarschijnlijkheid en niet aan de daadwerkelijke waarde.

Regressies zijn goed in het vinden van lineaire trends in gegevens, maar soms is er een relatie die niet lineair is. Een regressie kan pas goed bij een niet-lineair patroon passen als er gegevenstransformatie heeft plaatsgevonden voordat het model is getraind. Het voordeel van goede kennis van lineaire relaties is dat lineaire relaties over het algemeen het beste werken met extrapolatie. In de tabel staan lijsten van de voor- en nadelen van regressiemodellen.

Voordelen	Nadelen
Goed in extrapoleren Goed in het vinden van lineaire trends bij onafhankelijke variabelen Goed met veel gegevens uit dezelfde populatie Eenvoudig te begrijpen	Niet goed in het exploiteren van patronen tussen variabelen Niet goed in het passen van niet-lineaire trends Soms te simplistisch

Ensemblemodellen

Ensembles ontstaan wanneer meerdere modellen worden gecombineerd. Dit kan worden vergeleken met een groep mensen met verschillende achtergronden die gaan stemmen om vervolgens de gemiddelde stem te gebruiken om een beslissing te nemen. Random Forest en XGBoost zijn voorbeelden van ensemblemodellen.

Ensembles kunnen zowel regressie- als classificatieproblemen oplossen. Ze zijn goed in het vinden van niet-lineaire relaties en in het ontdekken hoe interacties tussen variabelen invloed hebben op het doel. Ensembles zijn goed in het leren van de patronen in de gegevensverzameling waarmee ze zijn getraind, maar ze zijn minder goed in het voorspellen van waarden buiten de gegevens die ze hebben gezien. In de tabel staan lijsten van de voor- en nadelen van ensemblemodellen.

Voordelen	Nadelen
Goed in het exploiteren van patronen tussen variabelen Goed in het vinden van niet-lineaire trends Goed met veel gegevens uit dezelfde populatie	Niet goed in extrapoleren Niet eenvoudig te interpreteren

Andere modeltypen

Andere modeltypen zijn alle overige modeltypen. Voorbeelden zijn onder meer Nearest Neighbors en Gaussian Naive Bayes. Deze typen modellen proberen doorgaans een nieuwe ruimtelijke vertegenwoordiging van de gegevens te maken. Ze doen dit vaak door een soort afstandmeting te maken die meet hoe verschillend twee records zijn. Ze kunnen goed zijn in het verwerken van niet-lineaire trends, maar de berekeningen zijn veel duurder omdat de gegevensverzameling groter is. In de tabel staan lijsten van de voor- en nadelen van andere modellen.

Voordelen	Nadelen
Goed in het exploiteren van patronen tussen variabelen Goed in het vinden van niet-lineaire trends	Niet goed in extrapoleren Berekeningen veel duurder voor grotere gegevensverzamelingen

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback