Identifiering och hantering av avvikelser
Avvikelser identifieras och hanteras med hjälp av intelligent modelloptimering. Med dessa funktioner kan Qlik AutoML automatiskt hantera outlier-värden i dina träningsdata med specifik bearbetning. Under träningen raderas inte outlier-data helt från dina data utan bearbetas istället med hjälp av ett algoritmdrivet viktningssystem.
Det är vanligt att outlier-värden eller avvikelser observeras i nästan alla typer av data som du kan arbeta med. Avvikelser är datavärden som förekommer utanför det konventionellt förväntade intervallet. Vid träning av maskininlärningsmodeller kan en viss andel avvikelser tolereras, och kan till och med vara önskvärda som en återspegling av avvikelser i den verkliga världen. I extrema fall kan dock avvikelser och outliervärden leda till att en modell blir partisk, vilket reducerar dess tillförlitlighet och användbarhet.
Exempel
Alla avvikelser ska inte behandlas lika och ska inte alltid ses som något som ska tas bort från dina data. Exempelvis, om en dataavvikelse är en naturligt möjlig men sällsynt händelse som kan observeras när du samlar in data, är det rimligt att du vill att detta ska användas i de modeller du tränar. Ett bra exempel på detta är bedrägerier i samband med finansiella transaktioner. Av miljontals transaktioner kanske endast en handfull är kopplade till bedrägeri. Beroende på vilket problem du vill analysera och åtgärda med din modell kan sannolikheten för bedrägerier i vardagliga transaktioner vara något du vill ta hänsyn till när du skapar prognoser.
Ett exempel på en avvikelse som du sannolikt vill ta bort är ett oavsiktligt misslyckande som inträffar när du samlar in data. Låt oss till exempel säga att du bygger en modell som ska användas för att göra prognoser för vädermönster. Din modell tränas på data från en sensor som övervakar vädermätningar och ett orelaterat strömavbrott resulterar i felaktiga data som samlas in från sensorn. Dessa felaktiga data kan betraktas som avvikelsedata som du vill ta bort innan du slutför träningen av modellen.
Hur hanterar Qlik AutoML avvikelser?
Avvikelser identifieras och hanteras när du tränar modeller med intelligent modelloptimering, som aktiveras som standard i nya experiment.
Hantering av avvikelser kan allmänt anses ske i två separata processer: identifiering och träning av den faktiska modellen.
Identifiering av avvikelser
När du kör en version av utbildningen, slutför AutoML flera steg innan modellträningen börjar. Detta inkluderar dataklassificering, tillräkning av nollor och flera andra processer. Avvikelser identifieras under detta steg, och endast när intelligent modelloptimering är aktiverad.
Tekniskt sett använder Qlik AutoML en beslutsträdsbaserad algoritm, isoleringsskogsalgoritmen, för att upptäcka avvikelser och avvikande värden i dina träningsdata. Under databehandlingsstadiet av intelligent modelloptimering tilldelas varje datapunkt i datauppsättningen (ofta kallad en post) en avvikelsepoäng och viktas baserat på graden av säkerhet att det är en avvikelse.
Hantering av avvikelser vid träning av modeller
När dina data har bearbetats och transformerats efter behov börjar AutoML träna modeller. Under denna process används de tidigare genererade viktade avvikelsepoängen för att justera det inflytande som varje rad har på modellen. En rad som med hög sannolikhet innehåller en avvikelse tilldelas till exempel ett lägre inflytande på modellträningen.
Detta viktade poängsystem gör att AutoML kan undvika att ta bort data och istället helt enkelt reducera den inverkan som outlierdata har på modellen.
Överväganden
Trots de funktioner för upptäckt av avvikelser som finns tillgängliga med Qlik AutoML betyder det inte att alla data kan användas för att träna en högkvalitativ modell. Om dina data innehåller okarakteristiskt stora andelar felaktig eller skadad information kan avvikelseidentifiering inte avhjälpa alla dessa problem.
I dessa scenarier rekommenderas att du återgår till datainsamlingsprocessen för att se till att du har de mest högkvalitativa och realistiska data som finns att tillgå. Detta hjälper dig att optimera din maskininlärningsmodells tillförlitlighet och framgång.