Gå till huvudinnehåll Gå till ytterligare innehåll

Kategorisk kodning

De flesta algoritmer för maskininlärning kräver att variablerna är numeriska. Eftersom ett kategoriskt värde inte har ett klart mätbart förhållande till de andra värdena i samma kolumn måste det först omvandlas till en numerisk representation som kan mätas med hjälp av matematik. AutoML använder kategorisk kodning för att omvandla kategoriska värden i funktionskolumner till numeriska värden som algoritmer för maskininlärning kan förstå.

AutoML använder två kodningsmetoder: effektkodning och one-hot-kodning. Vilken metod som används för en viss funktion beror på datauppsättningens storlek och antalet unika kategoriska värden.

  • För datauppsättningar med 100 eller färre kolumner:

    • Kategoriska funktioner med 13 eller färre unika värden one-hot-kodas.

    • Kategoriska funktioner med mer än 13 unika värden effektkodas.

  • För datauppsättningar med mer än 100 kolumner effektkodas alla kategoriska kolumner.

Du kan se vilka funktioner i din datauppsättning som behandlas med kategorisk kodning genom att titta på schemaöversikten när du konfigurerar ditt ML-experiment. Mer information finns i Konfigurering av experiment.

Hur fungerar kategorisk kodning?

En vanlig teknik för att ge en kategori en matematisk representation är one-hot-kodning. Med one-hot-kodning delas den kategoriska kolumnen in i n antal kolumner, där n är lika med antalet unika värden i kolumnen. Siffran 1 tilldelas till den lämpliga kolumnen för varje rad och 0 till de övriga kolumnerna som genererats för kategorin. Kategorisk kodning gör det möjligt att utvärdera varje unik variabel oberoende av de andra, till skillnad från ett numeriskt värde som utvärderas i förhållande till de andra värdena i kolumnen.

Exemplet i tabellen visar hur den kategoriska kolumnen Marknadsföringskälla har one-hot-kodats. Resultatet är fyra nya kolumner – en för varje unik marknadsföringskälla. På den första raden har Person_1 marknadsföringskällan "Facebook". Detta representeras av 1 i den nya Facebook-kolumnen och av 0 i de andra kolumnerna.

Kategorisk kodning av kolumnen Marknadsföringskälla

Tabell med exempeldata.

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!