Kardinalitet
Kardinaliteten är unikheten hos datavärdena i en kolumn. Kolumner med för många unika värden eller utan unika värden har liten varians. En maskininlärningsmodell kan inte identifiera något mönster i dessa data.
En hög kardinalitet innebär ett stort antal unika värden. För att undvika hög kardinalitet kan du gruppera liknande värden. Du kan också skapa nya funktionskolumner, till exempel kan hemadresser omvandlas till avstånd till eller från en viss plats.
En kolumn med bara ett unikt värde (konstant) är inte till nytta vid identifiering av mönster.
RELATERAD INFORMATION: