Identifiering och hantering av avvikelser
Identifiering och hantering av avvikelser tillhandahålls när du använder intelligent modelloptimering. Med dessa funktioner kan Qlik Predict hantera outlier-värden i dina träningsdata automatiskt med specifik bearbetning. Under träningen tas inte outlier-data från dina träningsdata bort helt, utan bearbetas i stället med hjälp av ett algoritmdrivet viktningssystem.
Det är vanligt att observera outlier-värden, eller avvikelser, i nästan alla typer av data du kan arbeta med. Avvikelser är datavärden som inträffar utanför det konventionellt förväntade intervallet som du kan förvänta dig. Vid träning av maskininlärningsmodeller kan en viss andel avvikelser tolereras och kan till och med vara önskvärda som en återspegling av verkliga avvikelser. I extrema fall introducerar dock avvikelser och outlier-värden bias i en modell, vilket minskar dess tillförlitlighet och användbarhet.
Exempel
Alla avvikelser bör inte behandlas lika, och bör inte alltid ses som saker att ta bort från dina data. Om en dataavvikelse till exempel är en naturligt möjlig men sällsynt händelse som kan observeras vid insamling av data, kan det vara rimligt att du vill att detta ska användas i de modeller du tränar. Ett bra exempel på detta är fall av bedrägeri i finansiella transaktioner. Över miljontals transaktioner kanske bara en handfull är relaterade till bedrägeri. Beroende på vilket problem du vill analysera och åtgärda med din modell kan sannolikheten för bedrägeri i vardagliga transaktioner vara något du vill ta hänsyn till när du genererar prediktioner.
Ett exempel på en avvikelse som du troligen skulle vilja ta bort är ett oavsiktligt fel som inträffar när du samlar in data. Låt oss till exempel säga att du bygger en modell som ska användas för att förutsäga vädermönster. Din modell tränas på data från en sensor som övervakar vädermätvärden, och ett orelaterat strömavbrott resulterar i att felaktiga data samlas in från sensorn. Dessa felaktiga data kan betraktas som avvikelsedata som du skulle vilja ta bort innan du avslutar modellträningen.
Hur hanterar Qlik Predict avvikelser?
Identifiering och hantering av avvikelser utförs när du tränar modeller med intelligent modelloptimering, vilket är aktiverat som standard i nya experiment.
Hantering av avvikelser kan generellt anses ske i två separata processer: identifiering och faktisk modellträning.
Identifiering av avvikelser
När du kör en version av träningen slutför Qlik Predict flera steg innan modellträningen börjar. Detta inkluderar dataklassificering, null-imputering och ett antal andra processer. Identifiering av avvikelser slutförs under detta skede, och endast när intelligent modelloptimering är aktiverad.
I tekniska termer använder Qlik Predict en beslutsträdsbaserad algoritm, isolation forest-algoritmen, för att upptäcka avvikelser och outlier-värden i dina träningsdata. Under databearbetningsstadiet i intelligent modelloptimering tilldelas varje datapunkt i datauppsättningen (allmänt känd som en post) en avvikelsepoäng och viktas baserat på graden av säkerhet att det är en avvikelse.
Hantering av avvikelser i modellträning
Efter att dina data har bearbetats och transformerats efter behov börjar Qlik Predict träna modeller. Under denna process används de viktade avvikelsepoängen som genererades tidigare för att justera det inflytande varje rad har på modellen. Till exempel tilldelas en rad som anses mycket trolig att innehålla en avvikelse ett lägre inflytande på modellträningen.
Detta viktade poängsystem gör att Qlik Predict kan undvika att kassera data, och i stället helt enkelt minska den påverkan som outlier-data har på modellen.
Överväganden
Trots de funktioner för identifiering av avvikelser som är tillgängliga med Qlik Predict, betyder detta inte att vilka data som helst kan användas för att träna en högkvalitativ modell. Om dina data innehåller otypiskt stora andelar felaktig eller skadad information kan identifiering av avvikelser inte avhjälpa alla dessa problem.
I dessa scenarier rekommenderas det att du återgår till datainsamlingsprocessen för att se till att du har de mest högkvalitativa och realistiska data tillgängliga för dig. Detta hjälper dig att optimera din maskininlärningsmodells tillförlitlighet och framgång.