Kardinalität
Die Kardinalität ist die Eindeutigkeit von Datenwerten in einer Spalte. Spalten mit zu vielen eindeutigen Werten oder keinen eindeutigen Werten haben eine geringe Varianz. Ein Modell für maschinelles Lernen kann in diesen Daten keine Muster identifizieren.
Eine hohe Kardinalität bedeutet eine hohe Anzahl eindeutiger Werte. Um hohe Kardinalität zu vermeiden, können Sie ähnliche Werte in Klassen einteilen oder gruppieren. Sie können auch neue Featurespalten erstellen. Beispielsweise können Wohnadressen in Entfernungen von oder zu einem spezifischen Standort umgewandelt werden.
Eine Spalte mit nur einem eindeutigen Wert (Konstante) ist beim Identifizieren von Mustern nicht hilfreich.