Anomaliedetectie en -verwerking

Anomaliedetectie en -verwerking worden geboden bij het gebruik van intelligente modeloptimalisatie. Met deze mogelijkheden kan Qlik Predict uitschieterwaarden in uw trainingsgegevens automatisch verwerken met specifieke verwerking. Tijdens de training worden uitschietergegevens uit uw trainingsgegevens niet volledig verwijderd, maar in plaats daarvan verwerkt met behulp van een door een algoritme aangedreven wegingssysteem.

Het is gebruikelijk om uitschieterwaarden, of anomalieën, waar te nemen in bijna elk soort gegevens waarmee u kunt werken. Anomalieën zijn gegevenswaarden die buiten het conventioneel verwachte bereik vallen dat u zou verwachten. Bij het trainen van machine learning-modellen kan een bepaalde verhouding van anomalieën worden getolereerd en kan dit zelfs wenselijk zijn als een weerspiegeling van afwijkingen in de echte wereld. In extreme gevallen introduceren anomalieën en uitschieterwaarden echter bias in een model, waardoor de betrouwbaarheid en bruikbaarheid ervan afnemen.

Voorbeelden

Niet alle anomalieën moeten gelijk worden behandeld en moeten niet altijd worden gezien als dingen die uit uw gegevens moeten worden verwijderd. Als een gegevensanomalie bijvoorbeeld een natuurlijk mogelijke maar zeldzame gebeurtenis is die kan worden waargenomen bij het verzamelen van gegevens, kan het logisch zijn dat u wilt dat deze wordt gebruikt in de modellen die u traint. Een goed voorbeeld hiervan zijn gevallen van fraude bij financiële transacties. Op miljoenen transacties zijn er misschien maar een handvol gerelateerd aan fraude. Afhankelijk van het probleem dat u met uw model wilt analyseren en aanpakken, kan de kans op fraude bij alledaagse transacties iets zijn waar u rekening mee wilt houden bij het genereren van voorspellingen.

Een voorbeeld van een anomalie die u waarschijnlijk zou willen verwijderen, is een onbedoelde storing die optreedt wanneer u gegevens verzamelt. Stel bijvoorbeeld dat u een model bouwt dat zal worden gebruikt om weerpatronen te voorspellen. Uw model wordt getraind op gegevens van een sensor die weermetrieken bewaakt, en een niet-gerelateerde stroomstoring leidt ertoe dat er foutieve gegevens van de sensor worden verzameld. Deze foutieve gegevens kunnen worden beschouwd als anomaliegegevens die u zou willen verwijderen voordat u de modeltraining voltooit.

Hoe gaat Qlik Predict om met anomalieën?

Anomaliedetectie en -verwerking worden uitgevoerd wanneer u modellen traint met intelligente modeloptimalisatie, wat standaard is ingeschakeld in nieuwe experimenten.

De verwerking van anomalieën kan over het algemeen worden beschouwd als plaatsvindend in twee afzonderlijke processen: detectie en de daadwerkelijke modeltraining.

Anomaliedetectie

Wanneer u een versie van de training uitvoert, voltooit Qlik Predict verschillende stappen voordat de modeltraining begint. Dit omvat gegevensclassificatie, null-imputatie en een aantal andere processen. Anomaliedetectie wordt tijdens deze fase voltooid, en alleen wanneer intelligente modeloptimalisatie is ingeschakeld.

In technische termen gebruikt Qlik Predict een op beslissingsbomen gebaseerd algoritme, het isolation forest-algoritme, om anomalieën en uitschieterwaarden in uw trainingsgegevens te detecteren. Tijdens de gegevensverwerkingsfase in intelligente modeloptimalisatie krijgt elk gegevenspunt in de gegevensset (over het algemeen bekend als een record) een anomaliescore toegewezen en wordt het gewogen op basis van de mate van zekerheid dat het een anomalie is.

Anomalieverwerking in modeltraining

Nadat uw gegevens naar behoefte zijn verwerkt en getransformeerd, begint Qlik Predict met het trainen van modellen. Tijdens dit proces worden de eerder gegenereerde gewogen anomaliescores gebruikt om de invloed die elke rij op het model heeft aan te passen. Een rij waarvan bijvoorbeeld wordt aangenomen dat deze zeer waarschijnlijk een anomalie bevat, krijgt een lagere invloed op de modeltraining toegewezen.

Dit gewogen scoringssysteem stelt Qlik Predict in staat om te voorkomen dat gegevens worden weggegooid, en in plaats daarvan simpelweg de impact te verminderen die uitschietergegevens op het model hebben.

Overwegingen

Ondanks de mogelijkheden voor anomaliedetectie die beschikbaar zijn met Qlik Predict, betekent dit niet dat alle gegevens kunnen worden gebruikt om een model van hoge kwaliteit te trainen. Als uw gegevens onkarakteristiek grote hoeveelheden foutieve of beschadigde informatie bevatten, kan anomaliedetectie niet al deze problemen verhelpen.

In deze scenario's wordt aanbevolen dat u terugkeert naar het gegevensverzamelingsproces om ervoor te zorgen dat u over de meest hoogwaardige en realistische gegevens beschikt. Dit zal u helpen de betrouwbaarheid en het succes van uw machine learning-model te optimaliseren.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback