Detectie en afhandeling van afwijkingen
Afwijkingen worden gedetecteerd en afgehandeld met behulp van intelligente modeloptimalisatie. Met deze mogelijkheden kan Qlik AutoML uitschieters in uw trainingsgegevens automatisch verwerken met behulp van specifieke processen. Tijdens de training worden uitschietergegevens uit uw trainingsgegevens niet volledig verwijderd, maar in plaats daarvan verwerkt met behulp van een algoritmisch wegingssysteem.
Het is gebruikelijk om uitschieters, of afwijkingen, waar te nemen in bijna elke soort gegevens waarmee u kunt werken. Afwijkingen zijn gegevenswaarden die buiten het conventioneel verwachte bereik vallen. Bij het trainen van modellen voor machine learning kan een bepaald percentage afwijkingen getolereerd worden en kan zelfs wenselijk zijn als een weerspiegeling van afwijkingen in de echte wereld. In extreme gevallen introduceren afwijkingen en uitschieters echter een vertekend beeld in een model, waardoor de betrouwbaarheid en bruikbaarheid ervan afnemen.
Voorbeelden
Niet alle afwijkingen moeten gelijk worden behandeld en moeten niet altijd worden gezien als dingen die u uit uw gegevens moet verwijderen. Als een data-afwijking bijvoorbeeld een natuurlijk mogelijk maar niet vaak voorkomend verschijnsel is dat kan worden waargenomen bij het verzamelen van gegevens, kan het logisch zijn dat u wilt dat dit wordt gebruikt in de modellen die u traint. Een goed voorbeeld hiervan zijn fraudegevallen bij financiële transacties. Van de miljoenen transacties zijn er misschien maar een paar gerelateerd aan fraude. Afhankelijk van het probleem dat u wilt analyseren en aanpakken met uw model, kan de waarschijnlijkheid van fraude bij alledaagse transacties iets zijn waar u rekening mee wilt houden bij het genereren van voorspellingen.
Een voorbeeld van een afwijking die u waarschijnlijk wilt verwijderen is een onbedoelde fout die optreedt wanneer u gegevens verzamelt. Stel bijvoorbeeld dat u een model aan het bouwen bent dat gebruikt zal worden om weerpatronen te voorspellen. Uw model wordt getraind op basis van gegevens van een sensor die metrische gegevens over het weer bewaakt en een ongerelateerde stroomstoring resulteert in foutieve gegevens die van de sensor worden verzameld. Deze foutieve gegevens kunnen worden beschouwd als afwijkende gegevens die u wilt verwijderen voordat u de modeltraining voltooit.
Hoe gaat Qlik AutoML om met afwijkingen?
Afwijkingen worden gedetecteerd en afgehandeld wanneer u modellen traint met intelligente modeloptimalisatie, die standaard is ingeschakeld bij nieuwe experimenten.
Afwijkingen kunnen over het algemeen in twee afzonderlijke processen worden behandeld: detectie en werkelijke modeltraining.
Detectie van afwijkingen
Wanneer u een versie van de training uitvoert, doorloopt AutoML een aantal stappen voordat de modeltraining begint. Dit omvat de classificatie van gegevens, null-imputatie en een aantal andere processen. Afwijkingen worden in deze fase gedetecteerd en alleen als de intelligente modeloptimalisatie is ingeschakeld.
In technische termen: Qlik AutoML gebruikt een algoritme op basis van een binaire zoekboom, het isolation forest-algoritme, om afwijkingen en uitschieters in uw trainingsgegevens te detecteren. Tijdens de gegevensverwerkingsfase in intelligente modeloptimalisatie wordt aan elk gegevenspunt in de gegevensverzameling (meestal bekend als een record) een afwijkingsscore toegekend en gewogen op basis van de mate van zekerheid dat het om een afwijking gaat.
Afwijkingen afhandelen in modeltraining
Nadat uw gegevens zijn verwerkt en getransformeerd, begint AutoML met het trainen van modellen. Tijdens dit proces worden de eerder gegenereerde gewogen afwijkingsscores gebruikt om de invloed van elke rij op het model aan te passen. Bijvoorbeeld, een rij die zeer waarschijnlijk een afwijking bevat, krijgt een lagere invloed op de modeltraining.
Met dit gewogen scoresysteem kan AutoML voorkomen dat gegevens worden verwijderd en in plaats daarvan de impact van uitschieters op het model verkleinen.
Overwegingen
Ondanks de detectiemogelijkheden voor afwijkingen die beschikbaar zijn met Qlik AutoML, betekent dit niet dat alle gegevens kunnen worden gebruikt om een model van hoge kwaliteit te trainen. Als uw gegevens ongekend hoge hoeveelheden foutieve of beschadigde gegevens bevat, kan afwijkingsdetectie niet al deze problemen verhelpen.
In deze scenario's wordt aanbevolen dat u terugkeert naar het gegevensverzamelingsproces om er zeker van te zijn dat u over de meest hoogwaardige en realistische gegevens beschikt. Dit zal u helpen de betrouwbaarheid en het succes van uw machine learning-model te optimaliseren.