Kategorisk kodning
De flesta algoritmer för maskininlärning kräver att variablerna är numeriska. Eftersom ett kategoriskt värde inte har ett klart mätbart förhållande till de andra värdena i samma kolumn måste det först omvandlas till en numerisk representation som kan mätas med hjälp av matematik. AutoML använder kategorisk kodning för att omvandla kategoriska värden i funktionskolumner till numeriska värden som algoritmer för maskininlärning kan förstå.
AutoML använder två kodningsmetoder: effektkodning och one-hot-kodning. Vilken metod som används för en viss funktion beror på datauppsättningens storlek och antalet unika kategoriska värden.
-
För datauppsättningar med 100 eller färre kolumner:
-
Kategoriska funktioner med 13 eller färre unika värden one-hot-kodas.
-
Kategoriska funktioner med mer än 13 unika värden effektkodas.
-
-
För datauppsättningar med mer än 100 kolumner effektkodas alla kategoriska kolumner.
Du kan se vilka funktioner i din datauppsättning som behandlas med kategorisk kodning genom att titta på schemaöversikten när du konfigurerar ditt ML-experiment. Mer information finns i Konfigurering av experiment.
Hur fungerar kategorisk kodning?
En vanlig teknik för att ge en kategori en matematisk representation är one-hot-kodning. Med one-hot-kodning delas den kategoriska kolumnen in i n antal kolumner, där n är lika med antalet unika värden i kolumnen. Siffran 1 tilldelas till den lämpliga kolumnen för varje rad och 0 till de övriga kolumnerna som genererats för kategorin. Kategorisk kodning gör det möjligt att utvärdera varje unik variabel oberoende av de andra, till skillnad från ett numeriskt värde som utvärderas i förhållande till de andra värdena i kolumnen.
Exemplet i tabellen visar hur den kategoriska kolumnen Marknadsföringskälla har one-hot-kodats. Resultatet är fyra nya kolumner – en för varje unik marknadsföringskälla. På den första raden har Person_1 marknadsföringskällan "Facebook". Detta representeras av 1 i den nya Facebook-kolumnen och av 0 i de andra kolumnerna.