Kardinaliteit
De kardinaliteit is de uniekheid van gegevenswaarden in een kolom. Kolommen met te veel unieke waarden of zonder unieke waarden hebben weinig variatie. Een machine learning-model kan geen patronen identificeren in die gegevens.
Een hoge kardinaliteit betekent een groot aantal unieke waarden. Om hoge kardinaliteit te voorkomen, kunt u vergelijkbare waarden in bins opslaan of groeperen. U kunt ook nieuwe kenmerkkolommen aanmaken. Zo kunnen thuisadressen worden omgezet in afstanden van of naar een specifieke locatie.
Een kolom met slechts één unieke waarde (constant) is niet handig bij het identificeren van patronen.