Identifiera snedvridning i maskininlärningsmodeller
Du kan identifiera snedvridning i maskininlärningsmodeller som du tränar i ML-experiment. Åtgärda identifierad snedvridning genom att ta bort snedvridna funktioner, korrigera felaktig datainsamling eller ändra strukturen på din träningsdatauppsättning.
Förstå snedvridning
Inom maskininlärning är snedvridning ett oönskat fenomen där modeller gynnar, eller skulle kunna gynna, vissa grupper framför andra. Bias påverkar rättvisan negativt och har etiska implikationer för förutsägelser och de beslut de påverkar. Bias kan introduceras i träningsdata, i resultaten som förutsägs av tränade modeller, eller båda.
Exempel på bias—och dess konsekvenser för beslutsfattande—inkluderar:
-
Att träna modeller på data som oproportionerligt representerar vissa inkomstnivåer eller hälsostatusar, vilket resulterar i orättvisa beslut för försäkringsanspråk.
-
Att träna modeller på snedvriden data med avseende på kandidaters ras och kön, vilket påverkar anställningsbeslut.
-
Träna modeller som associerar postnummer med kreditvärdighet.
Databias
Dataskevhet uppstår när data som används för att träna en modell är snedvriden på ett sätt som gynnar vissa grupper framför andra. Dataskevhet orsakas av ojämn representation mellan grupper i träningsdata.
Till exempel kan en datamängd för att förutsäga anställningsresultat innehålla data som representerar ett kön som mer framgångsrikt än andra.
Dataskevhet kan introduceras i träningsdata på flera sätt, inklusive:
-
Olämplig datainsamling där vissa grupper är underrepresenterade eller överrepresenterade.
-
Data som återspeglar historiska mönster korrekt, men avslöjar den underliggande snedvridningen i dessa trender och metoder.
Datan i visualiseringen nedan indikerar datasnedvridning.
Ett exempel på datasnedvridning, visualiserat av ett stapeldiagram. I källdatan är vissa civilstånd överrepresenterade jämfört med andra med avseende på inkomstnivåer.

Modellbias
Modellsnedvridning, eller algoritmisk snedvridning, uppstår när förutsägelserna som görs av en maskininlärningsmodell gynnar vissa grupper framför andra. Med modellsnedvridning skapar modeller associationer mellan vissa grupper och resultat, vilket negativt påverkar andra grupper. Modellsnedvridning kan orsakas av felaktigt insamlad eller snedvriden data, samt beteenden som är specifika för den träningsalgoritm som används.
Till exempel skulle en modell kunna förutsäga oproportionerligt negativa anställningsfrekvenser för vissa åldersgrupper på grund av orättvisa associationer som gjorts av modellen.
Visualisering från Analysera-fliken i ett ML-experiment, som belyser modellbias. Visualiseringen visar att en modell gör högre inkomstprognoser för vissa civilstånd än andra.

Mått för databias
I Qlik Predict, mäts databias genom att analysera:
-
Representationsgrad: Jämför fördelningen av data som tillhör varje grupp i funktionen, i jämförelse med all data i funktionen. Den beräknade mätningen är paritetskvot för representationsgrad.
-
Paritetskvot för villkorad fördelning: Jämför balansen mellan data för varje grupp i funktionen, med avseende på värdena i målkolumnen. Den beräknade mätningen är paritetskvot för villkorad fördelning.
Mer information om godtagbara värden för dessa mätningar finns i Godtagbara värden för biassmått.
Mätvärden för modellbias
I Qlik Predict förstås mätvärden för modellbias bäst i samband med modelltypen för experimentet. Generellt sett finns det följande kategorier för biasmetrik:
-
Mätvärden för klassificeringsmodeller
-
Mätvärden för regressions- och tidsseriemodeller
För att lära dig mer om de godtagbara värdena för dessa mätvärden, se Godtagbara värden för biassmått.
Klassificeringsmodeller
I binära och flerkategoriklassificeringsmodeller mäts snedvridning genom att analysera förutsagda målvärden (resultat). I synnerhet jämförs skillnader i positiva och negativa resultatfrekvenser för grupper ("positiva" och "negativa" avser här resultat som är gynnsamma respektive ogynnsamma – till exempel ett värde på ja eller nej för en Anställd målkolumn). Dessa modeller har följande snedvrindningsmätvärden:
-
Olikartad påverkan
-
Skillnad i statistisk paritet
-
Skillnad i lika möjligheter
Olikartad påverkan
Disparate impact ratio (DI) bedömer om grupper i en känslig funktion gynnas eller skadas i modellens förutsagda resultat. Det mäts genom att beräkna hur ofta varje grupp väljs som det förutsagda värdet, och jämföra det med urvalsfrekvensen för den mest gynnade gruppen i funktionen.
Skillnad i statistisk paritet
I likhet med oproportionerlig påverkan bedömer statistisk paritetsskillnad (SPD) modellförutsägelser för att avgöra om de gynnar eller skadar några enskilda grupper. Måttet beräknas genom att jämföra frekvensen av positiva utfall mellan den största och minsta gruppen.
Skillnad i lika möjligheter
Skillnad i lika möjligheter (EOD) liknar de andra två måtten för klassificeringsmodellens bias. EOD jämför de högsta och lägsta sanningspositiva frekvenserna mellan grupper i en funktion.
Regressions- och tidsseriemodeller
I regressions- och tidsseriemodeller mäts bias genom att jämföra hur ofta modeller gör fel i sina förutsägelser, med hjälp av paritetskvoter för att fastställa rättvisan i förutsagda resultat.
Följande bias-mått beräknas, med hjälp av felmått som ofta används för att utvärdera modellens noggrannhet:
Godtagbara värden för biassmått
| Biassmått | Biaskategori | Tillämpliga modelltyper | Godtagbara värden |
|---|---|---|---|
| Paritetskvot för representationsgrad | Databias | Alla |
Idealvärde: mellan 0,8 och 1. En lägre kvot indikerar oproportionerlig representation. |
| Paritetskvot för villkorad fördelning | Databias | Alla |
Idealvärde: mellan 0,8 och 1. Ett lägre förhållande indikerar oproportionerlig representation. |
| Skillnad i statistisk paritet (SPD) | Modellbias | Binär klassificering, multiklassklassificering |
Idealvärde: 0. Ett värde över 0,2 är en stark signal om orättvisa. |
| Olikartad påverkan (DI) | Modellbias | Binär klassificering, multiklassklassificering |
Idealvärde: 1. Ett värde under 0,8 signalerar orättvisa. |
| Skillnad i lika möjligheter (EOD) | Modellbias | Binär klassificering, multiklassklassificering |
Idealvärde: 0. Ett värde över 0,1 indikerar orättvisa. |
| Paritetskvot för MAE | Modellbias | Regression |
Idealvärde: mellan 0,8 och 1. Ett värde över 1,25 indikerar orättvisa. |
| Paritetskvot för MSE | Modellbias | Regression |
Idealvärde: mellan 0,8 och 1. Ett värde över 1,25 indikerar orättvisa. |
| Paritetskvot för RMSE | Modellbias | Regression |
Idealvärde: mellan 0,8 och 1. Ett värde över 1,25 indikerar orättvisa. |
| Skillnad i R2-värden | Modellbias | Regression |
Idealvärde: 0. Ett värde över 0,2 indikerar orättvisa. |
| Paritetskvot för MASE | Modellbias | Tidsserie | Ett värde över 1,25 signalerar orättvisa. |
| Paritetskvot för MAPE | Modellbias | Tidsserie | Ett värde över 1,25 signalerar orättvisa. |
| Paritetskvot för SMAPE | Modellbias | Tidsserie | Ett värde över 1,25 signalerar orättvisa. |
Konfigurera avvikelsedetektering
Avvikelsedetektering konfigureras per träningsfunktion i experimentversionen.
Gör följande:
-
I ett ML-experiment, expandera Bias i konfigurationspanelen för träning.
-
Välj funktionerna som du vill köra biasdetektering på.
Alternativt, aktivera biasdetektering för de önskade funktionerna i Schema view.
Snabb analys av avvikelsedetekteringsresultat
När träningen är klar kan du få en snabb översikt över avvikelsedetekteringsresultaten på fliken Modeller.
Rulla ned genom snabbanalysposterna för att hitta Biasdetektering. Expandera delavsnitt med hjälp av -ikonerna. Du kan analysera funktioner med möjliga data- och modellbiaser.
Analysera databias med hjälp av Biasdetektering-delavsnittet i Modeller-fliken.

Anteckningar
-
Föredragna grupper är målvärdena eller intervallen som är överrepresenterade i data eller förväntade resultat för målet, baserat på biasmätvärdena. Missgynnade grupper är målvärdena eller intervallen som är underrepresenterade i data eller förväntade resultat för målet, baserat på biasmätvärdena.
För information om hur biasmätvärdena används, se Godtagbara värden för biassmått.
Siffrorna inom parentes beskriver kriterierna som används för att beräkna mätvärdet. Till exempel, om måttet är skillnad i lika möjligheter (EOD), indikerar kvinnor (10 %) och män (80 %) sanna positiva frekvenser på 80 % för män och 10 % för kvinnor.
-
Målresultat avser värdet i målkolumnen som förutsägs av modellen.
-
Alla skevhetsmått och värden visas inte på fliken Modeller på grund av begränsat utrymme. Exempel:
-
Beroende på mått- och modelltyper kan vissa mått och grupper endast inkludera minimi- och maximivärden.
-
Om flera mått överskrider skevhetströskeln för en funktion, visas det mått som indikerar den högsta graden av orättvisa.
-
För partiska funktioner i flerkategoriklassificeringsmodeller visas endast måttet som indikerar den högsta graden av orättvisa.
-
-
Mer detaljerad information finns tillgänglig på Analysera-fliken och i modellträningsrapporten. Se Detaljerad analys av biasresultat.
- För mer information om terminologi i det här delavsnittet, se Terminologi på den här sidan.
Detaljerad analys av biasresultat
Du kan fördjupa dig i biasresultat på Analysera-fliken.
Gör följande:
-
I ett ML-experiment väljer du en modell och går till fliken Analysera.
-
Öppna Bias-arket.
-
Välj mellan Data bias och Model bias beroende på önskad analys.
-
I tabellen Features with potential bias väljer du en enskild funktion.
Diagram och mätvärden som indikerar möjlig bias visas med röd bakgrund. Du kan välja funktioner genom att klicka och dra i visualiseringar.
Mått i tabellen är statiska för skevhetsmått som motsvarar standardfunktioner. För framtida funktioner ändras skevhetsmått dynamiskt beroende på val av tidsseriergrupp.
Analysera-fliken visar en analys av modellens skevhet för den valda funktionen. Möjlig skevhet indikeras av röda bakgrunder för diagram och mått.

Se Utföra detaljerad modellanalys för mer information om att navigera i detaljerade modellanalyser.
Biasresultat i träningsrapporter
Biasmått presenteras också i ML-träningsrapporter.De ingår i ett dedikerat Bias-delavsnitt i rapporten.
Se Hämta ML-träningsrapporter för mer information om träningsrapporter.
Hantera partiskhet
Efter att ha analyserat resultaten av partiskhetsdetekteringen för dina modeller kan du vilja göra något av följande:
-
Kör nya experimentversioner efter att ha tagit bort de partiska funktionerna.
-
Undvik att distribuera modeller som uppvisar partiskhet, och distribuera istället modeller som uppfyller de rekommenderade kriterierna för partiskhetsmått.
-
Uppdatera din datauppsättning för att korrigera felaktig datainsamling eller för att åtgärda ojämlika representationsfrekvenser.
-
Omdefiniera ditt maskininlärningsproblem med hjälp av det strukturerade ramverket. Om din ursprungliga maskininlärningsfråga till exempel är inneboende partisk, kommer modeller sannolikt alltid att vara opålitliga när det gäller att skapa rättvisa förutsägelser.
Terminologi på den här sidan
På denna sida, och i Qlik Predict, är ”grupper” en term som har olika betydelser beroende på sammanhang:
-
”Grupper” avser värdena eller intervallen i funktioner som analyseras för partiskhet. Till exempel kan en Marital Status-funktion ha fyra möjliga grupper i träningsdata: Gift, Skild, Separerad eller Änka/Änkling.
-
I tidsserieexperiment avser "grupper" funktionalitet som gör det möjligt att spåra målutfall för specifika värden av kompatibla funktioner. På den här sidan kallas dessa grupper för "tidsseriegrupper". För mer information om dessa grupper, se Grupper.
Begränsningar
-
Du kan inte aktivera fördomsdetektering för:
-
Målfunktionen.
-
Fritextfunktioner (även om funktionstypen ändras till kategorisk).
-
Datumfunktioner som används som datumindex i tidsserieförsök.
-
Autogenererade datumfunktioner. Du kan köra snedvridningsdetektering på dessa funktioner, men du aktiverar dem inte oberoende. Istället, aktivera den överordnade datumfunktionen för avvikelsedetektering och se till att de automatiskt framtagna datumfunktionerna inkluderas för träning.
-