Kategorisk kodning

De flesta algoritmer för maskininlärning kräver att variablerna är numeriska. Eftersom ett kategoriskt värde inte har ett klart mätbart förhållande till de andra värdena i samma kolumn måste det först omvandlas till en numerisk representation som kan mätas med hjälp av matematik. AutoML använder kategorisk kodning för att omvandla kategoriska värden i funktionskolumner till numeriska värden som algoritmer för maskininlärning kan förstå.

AutoML använder två kodningsmetoder: effektkodning och one-hot-kodning. Vilken metod som används för en viss funktion beror på datauppsättningens storlek och antalet unika kategoriska värden.

För datauppsättningar med 100 eller färre kolumner:
- Kategoriska funktioner med 13 eller färre unika värden one-hot-kodas.
- Kategoriska funktioner med mer än 13 unika värden effektkodas.
För datauppsättningar med mer än 100 kolumner effektkodas alla kategoriska kolumner.

Du kan se vilka funktioner i din datauppsättning som behandlas med kategorisk kodning genom att titta på schemaöversikten när du konfigurerar ditt ML-experiment. Mer information finns i Konfigurering av experiment.

Hur fungerar kategorisk kodning?

En vanlig teknik för att ge en kategori en matematisk representation är one-hot-kodning. Med one-hot-kodning delas den kategoriska kolumnen in i n antal kolumner, där n är lika med antalet unika värden i kolumnen. Siffran 1 tilldelas till den lämpliga kolumnen för varje rad och 0 till de övriga kolumnerna som genererats för kategorin. Kategorisk kodning gör det möjligt att utvärdera varje unik variabel oberoende av de andra, till skillnad från ett numeriskt värde som utvärderas i förhållande till de andra värdena i kolumnen.

Exemplet i tabellen visar hur den kategoriska kolumnen Marknadsföringskälla har one-hot-kodats. Resultatet är fyra nya kolumner – en för varje unik marknadsföringskälla. På den första raden har Person_1 marknadsföringskällan "Facebook". Detta representeras av 1 i den nya Facebook-kolumnen och av 0 i de andra kolumnerna.

Tabell med exempeldata. — Kategorisk kodning av kolumnen Marknadsföringskälla

RELATERAD INFORMATION:

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!

Lämna din feedback här