Intelligente modeloptimalisatie

Intelligente modeloptimalisatie biedt automatische verfijning van de modellen die u in een experiment traint. Met intelligente modeloptimalisatie worden de processen van het herhalen van de functieselectie en het toepassen van geavanceerde transformaties voor u afgehandeld. Met een goed voorbereide trainingsdataset die alle relevante functies bevat, kunt u verwachten dat intelligente modeloptimalisatie binnen één versie modellen traint die klaar zijn om te worden geïmplementeerd.

Wat is intelligente modeloptimalisatie?

Intelligente modeloptimalisatie automatiseert veel aspecten van het modelverfijningsproces. Met intelligente modeloptimalisatie kunt u snel hoogwaardige modellen trainen zonder handmatig de functieselectie te verfijnen of uw invoergegevens aan te passen.

Intelligente modeloptimalisatie gebruiken

Intelligente modeloptimalisatie is standaard ingeschakeld in nieuwe ML-experimenten van de volgende typen:

Binaire classificatie
Multiklasse-classificatie
Regressie

Intelligente modeloptimalisatie is niet van toepassing op tijdreeks-experimenten.

U kunt intelligente modeloptimalisatie in- of uitschakelen voor elke versie van het experiment dat u uitvoert.

Nadat u een experimentversie hebt uitgevoerd met intelligente optimalisatie ingeschakeld, kunt u de resultaten van de optimalisatie bekijken in de Samenvatting van modeltraining. Deze samenvatting wordt weergegeven op het tabblad Modellen onder Modelinzichten. Beweeg uw cursor over onderstreepte termen om een knopinfo met een gedetailleerde beschrijving te bekijken.

De Samenvatting van modeltraining is verschillend voor elk model dat in een experimentversie is getraind.

Hoe intelligente modeloptimalisatie werkt

Met intelligente modeloptimalisatie:

Worden er meer modellen getraind dan met handmatige optimalisatie. Functieselectie wordt afgehandeld op modelniveau. Dit betekent dat, in tegenstelling tot handmatige optimalisatie, elk model in een versie een andere functieselectie kan hebben.
Worden trainingsgegevens, naast de automatische voorverwerking die standaard op alle modellen wordt toegepast, verwerkt met verschillende geavanceerde transformaties. Deze transformaties helpen ervoor te zorgen dat uw gegevens een optimale indeling hebben voor machine learning-algoritmen.
Wordt er voor kwaliteitsborging nog steeds een baselinemodel – een model dat is getraind op de volledige functieset die u voor de versie hebt geconfigureerd – getraind. Dit helpt om te controleren of de intelligente optimalisatie de modelscores daadwerkelijk verbetert.
Worden modellen voor grotere trainingsdatasets getraind op verschillende steekproefverhoudingen. Dit helpt om het trainingsproces te versnellen. Raadpleeg voor meer informatie Sampling van trainingsgegevens.

Sampling van trainingsgegevens

Wanneer u modellen traint met een grote hoeveelheid gegevens, gebruikt Qlik Predict sampling om modellen te trainen op verschillende subgroepen (steekproefverhoudingen) van de oorspronkelijke dataset. Sampling wordt gebruikt om het trainingsproces te versnellen. Aan het begin van de training worden modellen getraind op een kleine steekproefverhouding. Naarmate de training vordert, worden modellen geleidelijk getraind op grotere delen van de gegevens. Uiteindelijk worden modellen getraind op de volledige dataset (een steekproefverhouding van 100%).

Tijdens de analyse van modeltrainingsgegevens worden modellen die zijn getraind met minder dan 100% van de trainingsdataset in sommige weergaven verborgen.

Verwerking toegepast tijdens intelligente modeloptimalisatie

De Samenvatting van modeltraining laat zien hoe de trainingsgegevens zijn verwerkt door intelligente modeloptimalisatie. De volgende secties bevatten meer details over elk van de items die u in het logboek ziet.

De toegepaste verwerking kan per model verschillen.

Trainingssamenvattingsdiagram voor een model dat is getraind met intelligente optimalisatie. Functies uit de trainingsgegevens zijn automatisch uitgesloten van het model om redenen zoals doellekkage en hoge correlatie — Samenvatting van modeltraining-diagram voor een model, weergegeven op het tabblad Modellen

Functieselectie

Intelligente modeloptimalisatie helpt uw modellen te verfijnen door functies te verwijderen die de voorspellende prestaties kunnen verminderen. Tijdens intelligente modeloptimalisatie kan een functie om een van de volgende redenen worden verwijderd:

Doellekkage: Er bestaat een vermoeden dat de functie wordt beïnvloed door doellekkage. Functies die worden beïnvloed door doellekkage bevatten informatie over de doelkolom die u probeert te voorspellen. De functie is bijvoorbeeld rechtstreeks afgeleid van het doel of bevat informatie die op het moment van voorspelling nog niet bekend zou zijn. Functies die doellekkage veroorzaken, kunnen u een vals gevoel van zekerheid geven over de modelprestaties. Bij voorspellingen in de praktijk zorgen ze ervoor dat het model zeer slecht presteert.
Lage permutatie-importantie: De functie heeft weinig tot geen invloed op de modelvoorspellingen. Het verwijderen van deze functies verbetert de modelprestaties door statistische ruis te verminderen.
Sterk gecorreleerd: De functie is sterk gecorreleerd met een of meer andere functies in het experiment. Functies die te sterk gecorreleerd zijn, zijn niet geschikt voor gebruik in trainingsmodellen.

Op het tabblad Gegevens in het experiment kunt u inzichten bekijken over verwijderde functies voor elk model. De Inzichten verwijzen ook naar functies die buiten het intelligente modeloptimalisatieproces zijn verwijderd. Raadpleeg voor meer informatie over elk inzicht Inzichten in de dataset interpreteren.

Functietransformaties

Intelligente modeloptimalisatie past een aantal technische transformaties toe op functieniveau. Deze transformaties verwerken uw trainingsgegevens zodat deze effectiever kunnen worden gebruikt om een betrouwbaar machine learning-model te maken. Functietransformaties worden automatisch toegepast als dat nodig is. In de Samenvatting van modeltraining krijgt u een melding wanneer functietransformaties worden toegepast en welke functies worden beïnvloed.

Machtstransformatie

Functiegegevens bevatten van nature vaak verdelingen met een zekere mate van asymmetrie en afwijking van een normale verdeling. Voordat u een model traint, kan het nuttig zijn om de gegevens te verwerken om de waardeverdelingen te normaliseren als deze te scheef lijken te zijn. Deze verwerking helpt bij het verminderen van bias en het identificeren van uitschieters.

Met intelligente modeloptimalisatie worden numerieke functies die een specifieke scheefheidsdrempel overschrijden, getransformeerd naar een meer normale (of normaalachtige) verdeling met behulp van machtstransformaties. Specifiek wordt de Yeo-Johnson-machtstransformatie gebruikt.

Binning van numerieke functies

Bepaalde numerieke functies kunnen patronen en verdelingen bevatten die niet eenvoudig kunnen worden verwerkt door machine learning-algoritmen. Met intelligente modeloptimalisatie wordt dit gedeeltelijk aangepakt door de gegevens van specifieke numerieke functies in verschillende bins te ordenen, afhankelijk van hun waardebereik. Binning wordt uitgevoerd zodat de functies kunnen worden getransformeerd in categorische functies.

Nadat de binning is voltooid, worden de nieuwe categorische functies one-hot encoded en gebruikt bij de training. Raadpleeg voor meer informatie over one-hot-codering Categorische encoding.

Weging en sampling op rijniveau

Anomaliedetectie en -afhandeling

Anomalieën zijn gegevenswaarden die buiten het bereik vallen waarin u ze redelijkerwijs zou verwachten. Het is niet ongebruikelijk dat er enkele uitschieters in uw trainingsgegevens voorkomen. Sommige anomalieën zijn mogelijk zelfs gewenst om de realiteit te weerspiegelen. In andere gevallen kunnen anomalieën het vermogen om een betrouwbaar model te trainen verstoren.

Met intelligente modeloptimalisatie identificeert Qlik Predict potentiële anomalieën. De rijen waarin de uitschieters voorkomen, worden vervolgens afgehandeld met een door algoritmen aangestuurd wegingssysteem. Als er een sterk vermoeden bestaat dat een waarde een anomalie is, vermindert het wegingssysteem de invloed die de bijbehorende rij in de trainingsgegevens op het model heeft.

Nadat uw model is getraind, wordt u op de hoogte gesteld van het percentage rijen uit de oorspronkelijke trainingsdataset dat als afwijkende gegevens is afgehandeld.

Raadpleeg voor meer informatie Anomaliedetectie en -verwerking.

Klassebalancering

In uw trainingsdataset is het mogelijk dat een bepaalde waarde (klasse) vaker voorkomt dan andere. Dit verschijnsel staat bekend als klasse-imbalans. Wanneer er klasse-imbalans in uw gegevens aanwezig is, leren de resulterende modellen meer over de meerderheidsklasse dan over de minderheidsklasse, wat invloed heeft op de nauwkeurigheid van de voorspelling.

Met intelligente modeloptimalisatie voert Qlik Predict automatische klassebalancering uit voor binaire classificatiemodellen. Klasse-imbalans wordt gedetecteerd door de waardeverdeling voor de twee klassen in de doelkolom te vergelijken. Dit wordt specifiek uitgevoerd wanneer de verhouding tussen de twee klassen als volgt is:

95% (of meer) van de rijen bevat één klasse
5% (of minder) van de rijen bevat de andere klasse

Tijdens de klassebalancering worden de trainingsgegevens oversampled om de klasseverdeling te verbeteren. Het proces is iteratief: er wordt een aantal verschillende uitvoerverhoudingen uitgeprobeerd om de optimale balans voor modelprestaties te vinden.

Na oversampling wordt de oversamplede dataset vervolgens gebruikt om de modellen in de experimentversie te trainen.

Raadpleeg voor meer algemene informatie over klassebalancering Klassenverdeling.

Intelligente optimalisatie uitschakelen

Als intelligente optimalisatie is uitgeschakeld, optimaliseert u de training handmatig. Handmatige optimalisatie kan nuttig zijn als u meer controle over het trainingsproces wilt hebben. U kunt met name een versie met intelligente modeloptimalisatie uitvoeren en de instelling vervolgens uitschakelen als u een klein aantal handmatige aanpassingen moet maken.

Handmatige optimalisatie is niet beschikbaar in tijdreeksexperimenten.

Doe het volgende:

Klik in een experiment op Configuratie weergeven.

Het paneel voor experimentconfiguratie wordt geopend.
Als u al ten minste één versie van het experiment hebt uitgevoerd, klikt u op Nieuwe versie maken.
Vouw in het paneel Modeloptimalisatie uit.
Schakel over van Intelligent naar Handmatig.

Overwegingen

Houd bij het werken met intelligente modeloptimalisatie rekening met het volgende:

Het gebruik van intelligente modeloptimalisatie garandeert niet dat uw training hoogwaardige modellen oplevert. De fasen voor de voorbereiding van de dataset en de experimentconfiguratie zijn ook essentieel voor het produceren van betrouwbare modellen. Als u geen goed voorbereide dataset hebt of als er belangrijke functies in uw configuratie ontbreken, is het niet gegarandeerd dat uw modellen goed presteren in productie-use cases. Raadpleeg voor meer informatie over deze fasen:
- Uw dataset voorbereiden voor training
- Experimenten configureren
Wanneer intelligente modeloptimalisatie is ingeschakeld voor een versie, heeft elk model uit deze versie een afzonderlijke set opgenomen functies. Aan de andere kant hebben alle modellen uit een versie die is getraind met handmatige optimalisatie dezelfde set opgenomen functies.
Intelligente modeloptimalisatie gebruikt alleen de functies en algoritmen die u in de configuratie voor de versie hebt opgenomen.

Hyperparameteroptimalisatie

Hyperparameteroptimalisatie is niet beschikbaar wanneer intelligente modeloptimalisatie is ingeschakeld. Om hyperparameteroptimalisatie te activeren, moet u de modeloptimalisatie instellen op Handmatig.

Raadpleeg voor meer informatie Hyperparameteroptimalisatie.

Voorbeeld

Raadpleeg voor een voorbeeld waarin de voordelen van intelligente modeloptimalisatie worden gedemonstreerd Zelfstudie – Voorspellingsgegevens genereren en visualiseren.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback