Categorische encoding
De meeste machine learning-algoritmen hebben de variabelen nodig om numeriek te zijn. Omdat een categorische waarde geen duidelijk meetbare relatie heeft met de overige waarden in die kolom, moet deze eerst worden geconverteerd in een numerieke weergave om mathematisch te worden gemeten. AutoML maakt gebruik van categorische encoding om categorische waarden in kenmerkkolommen om te zetten in numerieke waarden die machine learning-algoritmen kunnen begrijpen.
AutoML gebruikt twee encodingmethoden: impact encoded en one-hot encoding. De methode die voor een specifiek kenmerk wordt gebruikt, is afhankelijk van de omvang van de gegevensverzameling en het aantal unieke categorische waarden.
-
Voor gegevensverzamelingen met 100 kolommen of minder:
-
Categorische kenmerken met 13 of minder unieke waarden worden one-hot encoded.
-
Categorische kenmerken met 13 of meer unieke waarden worden impact encoded.
-
-
Voor gegevensverzamelingen met meer dan 100 kolommen worden alle categorische kolommen impact encoded.
U kunt zien welke kenmerken in uw gegevensverzameling worden verwerkt met categorische encoding door de schemaweergave te raadplegen wanneer u uw ML-experiment configureert. Ga voor meer informatie naar Experimenten configureren.
Hoe werkt categorische encoding?
Een veelvoorkomende techniek om een mathematische representatie aan een categorie te geven is one-hot encoding. One-hot encoding draait de categorische kolom in n kolommen waarbij n gelijkstaat aan het aantal unieke waarden in de kolom. Het getal 1 wordt toegewezen aan de juiste kolom per rij en 0 aan de overige kolommen die voor de categorie zijn gegenereerd. Dankzij categorische encoding kan iedere unieke variabele onafhankelijk van de anderen worden geëvalueerd. Dit is anders dan een numerieke waarde die relatief ten opzichte van de andere waarden in de kolom wordt geëvalueerd.
Het voorbeeld in de tabel geeft aan hoe de categorische kolom MarketingSource one-hot encoded is. Het resultaat is vier nieuwe kolommen: één per unieke marketingbron. In de eerste rij heeft Person_1 marketingsource 'Facebook'. Dit wordt vertegenwoordigd door 1 in de nieuwe Facebook-kolom en 0 in de andere kolommen.