Automatisk förberedelse och omvandling av data

Den datauppsättning som du har valt för ditt experiment förbehandlas automatiskt för att förberedas för modellträning. Förbehandlingsstegen omfattar förberedelse och omvandling av data. Detta ökar kvaliteten på data och ger dig en modell som ger korrekta resultat.

En mängd olika datavetenskapliga tekniker används för att förbehandla data. De flesta av stegen utförs som standard och fungerar bra i många fall. Genom att känna till dessa standardsteg och de underliggande begreppen kan du förstå vad du behöver göra med data för ditt specifika användningsområde innan du använder dem för att träna en modell.

Experimentkonfiguration

Innan förbehandlingen påbörjas utför Qlik Predict flera förberedande steg och visar en förhandsgranskning av hur dina data kommer att hanteras. Vissa steg beror på din experimenttyp och andra faktorer. Följande steg kan vara aktuella:

Klassificera kolumnerna i datauppsättningen som någon av funktionstyperna kategorisk, numerisk, datum eller fritext.
- Float-, dubbel- och decimaldatatyper bedöms alltid som numeriska.
- Kolumner med en strängdatatyp som innehåller mindre än 50 tecken i genomsnitt klassificeras som kategoriska.
- Kolumner med en strängdatatyp som innehåller 50 tecken eller mer i genomsnitt klassificeras som fritext. Men i det här skedet är det inte säkert att de här kolumnerna kan användas som fritextfunktioner. Ytterligare krav kontrolleras under förbearbetningen. Se Förbehandlingssteg.
- Integerdatatyper bedöms alltid som numeriska:
- Datum- och tidsstämpelsdatatyper bedöms alltid vara av typen datumfunktion. Under konfigureringen av experimentet förhandsgranskar Qlik Predict de autogenererade funktioner som möjligen kan härledas från den överordnade datumfunktionen.
Kontrollera varje kolumn avseende fåtalighet, konstanter och hög kardinalitet. Uteslut kolumnen i följande fall:
- Kolumnen har 50 procent nollvärden eller mer. Om du raderar poster som innehåller ett nollvärde för en funktion kan det leda till att du kastar bort i övrigt användbara träningsexempel. Alternativt kan tillräkning av värden rädda exemplet, men posten blir bara en approximation av verkligheten. Därför är det ofta bättre att utesluta funktioner med ett stort antal (över 50 procent) nollvärden. Observera att 0 aldrig betraktas som noll.
- Kolumnen har samma värde på varje rad (konstant). Med andra ord har kolumnen låg kardinalitet. Funktioner med endast ett enda värde har inget prediktivt värde.
- Kolumnen är kategorisk och har 90 procent eller fler unika värden (hög kardinalitet). För många unika värden gör det svårt för modellen att generalisera utanför träningsdatauppsättningen.

Justeringar kan komma att göras avseende hur data hanteras när förbehandlingen har påbörjats.

Förbehandlingssteg

När du har valt en målkolumn beror nästa steg på experimenttypen. För klassificerings- och regressionsexperiment identifieras och separeras de rader där målvärdet är noll, och rader där målet är känt lämnas kvar som träningsuppsättning. För tidserieexperiment interpoleras saknade målvärden.

Endast data från träningsdatauppsättningen används för att fatta beslut i de följande stegen. Stegen, tillsammans med metadata, kommer att sparas och tillämpas på nya data som modellen kan göra prognoser om.

Förbearbetningen utförs på inkluderade funktioner varje gång du kör en ny experimentversion.Vissa steg beror på din experimenttyp och andra faktorer.

Beräkna och spara medelvärdet för numeriska värden och typvärdet för kategoriska värden.
Tillräkna saknade värden. Mer information finns i Imputation av nullvärden.
Koda kategoriska variabler.
För tidsseriemodeller utförs ett antal steg för att validera användarkonfigurerade experimentegenskaper och för att ge ytterligare information till användaren efter att träningen har avslutats:
- Det maximala prognosfönstret bestäms.
- Tidssteget för datumindexet bekräftas.
- Användarvalda målgrupperingar valideras eller, om de inte har specificerats, identifieras om de finns från de inkluderade kategoriska funktionerna.
Generera nya funktioner från befintliga kolumner i datauppsättningen. De här nya autogenererade funktionerna kan förbättra prestandan och den prediktiva kapaciteten hos de modeller som du skapar.

Kolumner som identifieras som möjlig fritext kontrolleras avseende genomsnittlig ordlängd. Om kolumnen har en genomsnittlig ordlängd på mer än fem ord kan den kodas som en fritextfunktion med automatisk funktionsgenerering. Om inte visas en varning. Om den inte kan användas som fritext ska funktionen väljas bort om den har hög kardinalitet.
Beräkna och spara sammanfattande statistik för varje kolumn för att använda den vid skalning av funktioner.
Standardisera varje kolumn med funktionsskalning.
Utför analys på funktioner som har valts ut för skevhetsdetektering, och returnerar dataskevhetsmått och motsvarande insikter. Mer information finns i Identifiera snedvridning i maskininlärningsmodeller.
Använd automatiskt undantagande av träningsdata och femfaldig korsvalidering. Mer information finns i Undantagna data och korsvalidering.
Beräkna olika statistik om datauppsättningen med ökad säkerhet. Till exempel kan ny information bli tillgänglig om datauppsättningens storlek, antal rader och celler samt andelen null-värden. Mer information finns i Begränsningar för träningsdatauppsättning och profilering.

Mer information

Automatisk egenskapsgenerering

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här