Gå till huvudinnehåll Gå till ytterligare innehåll

Identifiera snedvridning i maskininlärningsmodeller

Du kan identifiera snedvridning i maskininlärningsmodeller som du tränar i ML-experiment. Åtgärda identifierad snedvridning genom att ta bort snedvridna funktioner, korrigera felaktig datainsamling eller ändra strukturen på din träningsdatauppsättning.

Förstå snedvridning

Inom maskininlärning är snedvridning ett oönskat fenomen där modeller gynnar, eller skulle kunna gynna, vissa grupper framför andra. Bias påverkar rättvisan negativt och har etiska implikationer för förutsägelser och de beslut de påverkar. Bias kan introduceras i träningsdata, i resultaten som förutsägs av tränade modeller, eller båda.

Exempel på bias—och dess konsekvenser för beslutsfattande—inkluderar:

  • Att träna modeller på data som oproportionerligt representerar vissa inkomstnivåer eller hälsostatusar, vilket resulterar i orättvisa beslut för försäkringsanspråk.

  • Att träna modeller på snedvriden data med avseende på kandidaters ras och kön, vilket påverkar anställningsbeslut.

  • Träna modeller som associerar postnummer med kreditvärdighet.

Databias

Dataskevhet uppstår när data som används för att träna en modell är snedvriden på ett sätt som gynnar vissa grupper framför andra. Dataskevhet orsakas av ojämn representation mellan grupper i träningsdata.

Till exempel kan en datamängd för att förutsäga anställningsresultat innehålla data som representerar ett kön som mer framgångsrikt än andra.

Dataskevhet kan introduceras i träningsdata på flera sätt, inklusive:

  • Olämplig datainsamling där vissa grupper är underrepresenterade eller överrepresenterade.

  • Data som återspeglar historiska mönster korrekt, men avslöjar den underliggande snedvridningen i dessa trender och metoder.

Datan i visualiseringen nedan indikerar datasnedvridning.

Ett exempel på datasnedvridning, visualiserat av ett stapeldiagram. I källdatan är vissa civilstånd överrepresenterade jämfört med andra med avseende på inkomstnivåer.

Snedvriden data som skulle introducera datasnedvridning om den används i en maskininlärningsmodell.

Modellbias

Modellsnedvridning, eller algoritmisk snedvridning, uppstår när förutsägelserna som görs av en maskininlärningsmodell gynnar vissa grupper framför andra. Med modellsnedvridning skapar modeller associationer mellan vissa grupper och resultat, vilket negativt påverkar andra grupper. Modellsnedvridning kan orsakas av felaktigt insamlad eller snedvriden data, samt beteenden som är specifika för den träningsalgoritm som används.

Till exempel skulle en modell kunna förutsäga oproportionerligt negativa anställningsfrekvenser för vissa åldersgrupper på grund av orättvisa associationer som gjorts av modellen.

Visualisering från Analysera-fliken i ett ML-experiment, som belyser modellbias. Visualiseringen visar att en modell gör högre inkomstprognoser för vissa civilstånd än andra.

'Analysera'-fliken i ML-experiment som visar modellbias.

Mått för databias

I Qlik Predict, mäts databias genom att analysera:

  • Representationsgrad: Jämför fördelningen av data som tillhör varje grupp i funktionen, i jämförelse med all data i funktionen. Den beräknade mätningen är paritetskvot för representationsgrad.

  • Paritetskvot för villkorad fördelning: Jämför balansen mellan data för varje grupp i funktionen, med avseende på värdena i målkolumnen. Den beräknade mätningen är paritetskvot för villkorad fördelning.

Mer information om godtagbara värden för dessa mätningar finns i Godtagbara värden för biassmått.

Mätvärden för modellbias

I Qlik Predict förstås mätvärden för modellbias bäst i samband med modelltypen för experimentet. Generellt sett finns det följande kategorier för biasmetrik:

  • Mätvärden för klassificeringsmodeller

  • Mätvärden för regressions- och tidsseriemodeller

För att lära dig mer om de godtagbara värdena för dessa mätvärden, se Godtagbara värden för biassmått.

Klassificeringsmodeller

I binära och flerkategoriklassificeringsmodeller mäts snedvridning genom att analysera förutsagda målvärden (resultat). I synnerhet jämförs skillnader i positiva och negativa resultatfrekvenser för grupper ("positiva" och "negativa" avser här resultat som är gynnsamma respektive ogynnsamma – till exempel ett värde på ja eller nej för en Anställd målkolumn). Dessa modeller har följande snedvrindningsmätvärden:

  • Olikartad påverkan

  • Skillnad i statistisk paritet

  • Skillnad i lika möjligheter

Olikartad påverkan

Disparate impact ratio (DI) bedömer om grupper i en känslig funktion gynnas eller skadas i modellens förutsagda resultat. Det mäts genom att beräkna hur ofta varje grupp väljs som det förutsagda värdet, och jämföra det med urvalsfrekvensen för den mest gynnade gruppen i funktionen.

Skillnad i statistisk paritet

I likhet med oproportionerlig påverkan bedömer statistisk paritetsskillnad (SPD) modellförutsägelser för att avgöra om de gynnar eller skadar några enskilda grupper. Måttet beräknas genom att jämföra frekvensen av positiva utfall mellan den största och minsta gruppen.

Skillnad i lika möjligheter

Skillnad i lika möjligheter (EOD) liknar de andra två måtten för klassificeringsmodellens bias. EOD jämför de högsta och lägsta sanningspositiva frekvenserna mellan grupper i en funktion.

Regressions- och tidsseriemodeller

I regressions- och tidsseriemodeller mäts bias genom att jämföra hur ofta modeller gör fel i sina förutsägelser, med hjälp av paritetskvoter för att fastställa rättvisan i förutsagda resultat.

Följande bias-mått beräknas, med hjälp av felmått som ofta används för att utvärdera modellens noggrannhet:

  • Paritetskvot för MAE

    MAE

  • Paritetskvot för MSE

    MSE

  • Paritetskvot för RMSE

    RMSE

  • Skillnad i R2-värden

    R2

  • Paritetskvot för MASE

    MASE

  • Paritetskvot för MAPE

    MAPE

  • Paritetskvot för SMAPE

    SMAPE

Godtagbara värden för biassmått

Biassmått – godtagbara intervall och värden
Biassmått Biaskategori Tillämpliga modelltyper Godtagbara värden
Paritetskvot för representationsgrad Databias Alla

Idealvärde: mellan 0,8 och 1.

En lägre kvot indikerar oproportionerlig representation.

Paritetskvot för villkorad fördelning Databias Alla

Idealvärde: mellan 0,8 och 1.

Ett lägre förhållande indikerar oproportionerlig representation.

Skillnad i statistisk paritet (SPD) Modellbias Binär klassificering, multiklassklassificering

Idealvärde: 0.

Ett värde över 0,2 är en stark signal om orättvisa.

Olikartad påverkan (DI) Modellbias Binär klassificering, multiklassklassificering

Idealvärde: 1.

Ett värde under 0,8 signalerar orättvisa.

Skillnad i lika möjligheter (EOD) Modellbias Binär klassificering, multiklassklassificering

Idealvärde: 0.

Ett värde över 0,1 indikerar orättvisa.

Paritetskvot för MAE Modellbias Regression

Idealvärde: mellan 0,8 och 1.

Ett värde över 1,25 indikerar orättvisa.

Paritetskvot för MSE Modellbias Regression

Idealvärde: mellan 0,8 och 1.

Ett värde över 1,25 indikerar orättvisa.

Paritetskvot för RMSE Modellbias Regression

Idealvärde: mellan 0,8 och 1.

Ett värde över 1,25 indikerar orättvisa.

Skillnad i R2-värden Modellbias Regression

Idealvärde: 0.

Ett värde över 0,2 indikerar orättvisa.

Paritetskvot för MASE Modellbias Tidsserie Ett värde över 1,25 signalerar orättvisa.
Paritetskvot för MAPE Modellbias Tidsserie Ett värde över 1,25 signalerar orättvisa.
Paritetskvot för SMAPE Modellbias Tidsserie Ett värde över 1,25 signalerar orättvisa.

Konfigurera avvikelsedetektering

Avvikelsedetektering konfigureras per träningsfunktion i experimentversionen.

  1. I ett ML-experiment, expandera Bias i konfigurationspanelen för träning.

  2. Välj funktionerna som du vill köra biasdetektering på.

Alternativt, aktivera biasdetektering för de önskade funktionerna i Rader Schema view.

Snabb analys av avvikelsedetekteringsresultat

När träningen är klar kan du få en snabb översikt över avvikelsedetekteringsresultaten på fliken Modeller.

Rulla ned genom snabbanalysposterna för att hitta Biasdetektering. Expandera delavsnitt med hjälp av Nedrullningspil nedåt-ikonerna. Du kan analysera funktioner med möjliga data- och modellbiaser.

Analysera databias med hjälp av Biasdetektering-delavsnittet i Modeller-fliken.

Analysera databias med hjälp av delavsnittet Biasdetektering på fliken Modeller.

Anteckningar

  • Föredragna grupper är målvärdena eller intervallen som är överrepresenterade i data eller förväntade resultat för målet, baserat på biasmätvärdena. Missgynnade grupper är målvärdena eller intervallen som är underrepresenterade i data eller förväntade resultat för målet, baserat på biasmätvärdena.

    För information om hur biasmätvärdena används, se Godtagbara värden för biassmått.

    Siffrorna inom parentes beskriver kriterierna som används för att beräkna mätvärdet. Till exempel, om måttet är skillnad i lika möjligheter (EOD), indikerar kvinnor (10 %) och män (80 %) sanna positiva frekvenser på 80 % för män och 10 % för kvinnor.

  • Målresultat avser värdet i målkolumnen som förutsägs av modellen.

  • Alla skevhetsmått och värden visas inte på fliken Modeller på grund av begränsat utrymme. Exempel:

    • Beroende på mått- och modelltyper kan vissa mått och grupper endast inkludera minimi- och maximivärden.

    • Om flera mått överskrider skevhetströskeln för en funktion, visas det mått som indikerar den högsta graden av orättvisa.

    • För partiska funktioner i flerkategoriklassificeringsmodeller visas endast måttet som indikerar den högsta graden av orättvisa.

  • Mer detaljerad information finns tillgänglig på Analysera-fliken och i modellträningsrapporten. Se Detaljerad analys av biasresultat.

  • För mer information om terminologi i det här delavsnittet, se Terminologi på den här sidan.

Detaljerad analys av biasresultat

Du kan fördjupa dig i biasresultat på Analysera-fliken.

  1. I ett ML-experiment väljer du en modell och går till fliken Analysera.

  2. Öppna Bias-arket.

  3. Välj mellan Data bias och Model bias beroende på önskad analys.

  4. I tabellen Features with potential bias väljer du en enskild funktion.

Diagram och mätvärden som indikerar möjlig bias visas med röd bakgrund. Du kan välja funktioner genom att klicka och dra i visualiseringar.

Mått i tabellen är statiska för skevhetsmått som motsvarar standardfunktioner. För framtida funktioner ändras skevhetsmått dynamiskt beroende på val av tidsseriergrupp.

Analysera-fliken visar en analys av modellens skevhet för den valda funktionen. Möjlig skevhet indikeras av röda bakgrunder för diagram och mått.

Analysera modellbias på ett detaljerat sätt med hjälp av Bias-arket på fliken Analysera.

Se Utföra detaljerad modellanalys för mer information om att navigera i detaljerade modellanalyser.

Biasresultat i träningsrapporter

Biasmått presenteras också i ML-träningsrapporter.De ingår i ett dedikerat Bias-delavsnitt i rapporten.

Se Hämta ML-träningsrapporter för mer information om träningsrapporter.

Hantera partiskhet

Efter att ha analyserat resultaten av partiskhetsdetekteringen för dina modeller kan du vilja göra något av följande:

Terminologi på den här sidan

På denna sida, och i Qlik Predict, är ”grupper” en term som har olika betydelser beroende på sammanhang:

  • ”Grupper” avser värdena eller intervallen i funktioner som analyseras för partiskhet. Till exempel kan en Marital Status-funktion ha fyra möjliga grupper i träningsdata: Gift, Skild, Separerad eller Änka/Änkling.

  • I tidsserieexperiment avser "grupper" funktionalitet som gör det möjligt att spåra målutfall för specifika värden av kompatibla funktioner. På den här sidan kallas dessa grupper för "tidsseriegrupper". För mer information om dessa grupper, se Grupper.

Begränsningar

  • Du kan inte aktivera fördomsdetektering för:

    • Målfunktionen.

    • Fritextfunktioner (även om funktionstypen ändras till kategorisk).

    • Datumfunktioner som används som datumindex i tidsserieförsök.

    • Autogenererade datumfunktioner. Du kan köra snedvridningsdetektering på dessa funktioner, men du aktiverar dem inte oberoende. Istället, aktivera den överordnade datumfunktionen för avvikelsedetektering och se till att de automatiskt framtagna datumfunktionerna inkluderas för träning.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!