Automatisk förberedelse och omvandling av data
Den datauppsättning som du har valt för ditt experiment förbehandlas automatiskt för att förberedas för modellträning. Förbehandlingsstegen omfattar förberedelse och omvandling av data. Detta ökar kvaliteten på data och ger dig en modell som ger korrekta resultat.
En mängd olika datavetenskapliga tekniker används för att förbehandla data. De flesta av stegen utförs som standard och fungerar bra i många fall. Genom att känna till dessa standardsteg och de underliggande begreppen kan du förstå vad du behöver göra med data för ditt specifika användningsområde innan du använder dem för att träna en modell.
Experimentkonfiguration
Innan förbehandlingen påbörjas utför AutoML flera förberedande steg och visar en förhandsgranskning av hur dina data kommer att hanteras. Följande steg gäller:
-
Klassificera kolumnerna i datauppsättningen som någon av funktionstyperna kategorisk, numerisk, datum eller fritext.
-
Float-, dubbel- och decimaldatatyper bedöms alltid som numeriska.
-
Kolumner med en strängdatatyp som innehåller mindre än 50 tecken i genomsnitt klassificeras som kategoriska.
-
Kolumner med en strängdatatyp som innehåller 50 tecken eller mer i genomsnitt klassificeras som fritext. Men i det här skedet är det inte säkert att de här kolumnerna kan användas som fritextfunktioner. Ytterligare krav kontrolleras under förbearbetningen. Se Förbehandlingssteg.
-
Integerdatatyper bedöms alltid som numeriska:
-
Datum- och tidsstämpelsdatatyper bedöms alltid vara av typen datumfunktion. Under konfigureringen av experimentet förhandsgranskar AutoML de autogenererade funktioner som möjligen kan härledas från den överordnade datumfunktionen.
-
-
Kontrollera varje kolumn avseende fåtalighet, konstanter och hög kardinalitet. Uteslut kolumnen i följande fall:
-
Kolumnen har 50 procent nollvärden eller mer. Om du raderar poster som innehåller ett nollvärde för en funktion kan det leda till att du kastar bort i övrigt användbara träningsexempel. Alternativt kan tillräkning av värden rädda exemplet, men posten blir bara en approximation av verkligheten. Därför är det ofta bättre att utesluta funktioner med ett stort antal (över 50 procent) nollvärden. Observera att 0 aldrig betraktas som noll.
-
Kolumnen har samma värde på varje rad (konstant). Med andra ord har kolumnen låg kardinalitet. Funktioner med endast ett enda värde har inget prediktivt värde.
-
Kolumnen är kategorisk och har 90 procent eller fler unika värden (hög kardinalitet). För många unika värden gör det svårt för modellen att generalisera utanför träningsdatauppsättningen.
-
Justeringar kan komma att göras avseende hur data hanteras när förbehandlingen har påbörjats.
Förbehandlingssteg
När du har valt en målkolumn identifieras och separeras de rader där målvärdet är noll, och rader där målet är känt lämnas kvar som träningsuppsättning. Endast data från träningsdatauppsättningen används för att fatta beslut i de följande stegen. Stegen, tillsammans med metadata, kommer att sparas och tillämpas på nya data som modellen kan göra prognoser om.
Förbearbetningen utförs på inkluderade funktioner varje gång du kör en ny experimentversion.
-
Beräkna och spara medelvärdet för numeriska värden och typvärdet för kategoriska värden.
-
Tillräkna saknade värden.Mer information finns i Tillräkning av nollor.
-
Koda kategoriska variabler.
-
Generera nya funktioner från befintliga kolumner i datauppsättningen. De här nya autogenererade funktionerna kan förbättra prestandan och den prediktiva kapaciteten hos de modeller som du skapar.
Kolumner som identifieras som möjlig fritext kontrolleras avseende genomsnittlig ordlängd. Om kolumnen har en genomsnittlig ordlängd på mer än fem ord kan den kodas som en fritextfunktion med automatisk funktionsgenerering. Om inte visas en varning. Om den inte kan användas som fritext ska funktionen väljas bort om den har hög kardinalitet.
-
Beräkna och spara sammanfattande statistik för varje kolumn för att använda den vid skalning av funktioner.
-
Standardisera varje kolumn med funktionsskalning.
-
Använd automatiskt undantagande av träningsdata och femfaldig korsvalidering.Mer information finns i Undantagna data och korsvalidering.