Kardynalność
Kardynalność to unikalność wartości danych w kolumnie. Kolumny ze zbyt dużą liczbą unikalnych wartości lub bez unikalnych wartości charakteryzują się małą wariancją. Model uczenia maszynowego nie jest w stanie zidentyfikować żadnego wzorca w takich danych.
Wysoka kardynalność oznacza dużą liczbę unikalnych wartości. Aby zapobiec wysokiej kardynalności, można podzielić na przedziały lub pogrupować podobne wartości. Można również utworzyć nowe kolumny cech, na przykład adresy domowe można zamienić na odległości do lub z określonej lokalizacji.
Kolumna z tylko jedną unikalną wartością (stała) nie jest przydatna w identyfikowaniu wzorców.