Kardinalitet
Kardinalitet är hur unika datavärdena i en kolumn är. Kolumner med för många unika värden eller inga unika värden har liten varians. En maskininlärningsmodell kan inte identifiera någon typ av mönster i sådana data.
En hög kardinalitet innebär ett stort antal unika värden. För att förhindra hög kardinalitet kan du dela in i fack, eller gruppera, liknande värden. Du kan också skapa nya funktionskolumner, till exempel kan hemadresser omvandlas till avstånd till eller från en specifik plats.
En kolumn med endast ett unikt värde (konstant) är inte användbar för att identifiera mönster.
RELATERAD INFORMATION: