Kardinaliteit
De kardinaliteit is de uniekheid van gegevenswaarden in een kolom. Kolommen met te veel unieke waarden of geen unieke waarden hebben weinig variantie. Een machine learning-model kan geen enkel patroon in die gegevens identificeren.
Een hoge kardinaliteit betekent een groot aantal unieke waarden. Om een hoge kardinaliteit te voorkomen, kunt u vergelijkbare waarden in klassen indelen (binning) of groeperen. U kunt ook nieuwe functiekolommen maken, zo kunnen woonadressen bijvoorbeeld worden omgezet in afstanden naar of van een specifieke locatie.
Een kolom met slechts één unieke waarde (constante) is niet nuttig bij het identificeren van patronen.