Ga naar hoofdinhoud Ga naar aanvullende inhoud

Categorische encoding

De meeste machine learning-algoritmen hebben de variabelen nodig om numeriek te zijn. Omdat een categorische waarde geen duidelijk meetbare relatie heeft met de overige waarden in die kolom, moet deze eerst worden geconverteerd in een numerieke weergave om mathematisch te worden gemeten. Qlik Predict maakt gebruik van categorische encoding om categorische waarden in functiekolommen om te zetten in numerieke waarden die machine learning-algoritmen kunnen begrijpen.

Qlik Predict gebruikt drie encodingmethoden: impact encoded, one-hot encoding en ordinal encoding. De methode die voor een specifieke functie wordt gebruikt, is afhankelijk van de gegevenskenmerken, het aantal unieke categorische waarden en het experimenttype.

  • Voor classificatie- en regressieproblemen:

    • Voor gegevensverzamelingen met 100 kolommen of minder:

      • Categorische functies met 13 of minder unieke waarden worden one-hot encoded.

      • Categorische functies met 13 of meer unieke waarden worden impact encoded.

    • Voor gegevensverzamelingen met meer dan 100 kolommen worden alle categorische kolommen impact encoded.

  • Voor tijdreeksproblemen worden categorische kolommen gecodeerd met behulp van ordinale encoding.

U kunt zien welke functies in uw gegevensverzameling worden verwerkt met categorische encoding door de schemaweergave te raadplegen wanneer u uw ML-experiment configureert. Ga voor meer informatie naar Experimenten configureren.

Hoe werkt categorische encoding?

Een veelvoorkomende techniek om een mathematische representatie aan een categorie te geven is one-hot encoding. One-hot encoding draait de categorische kolom in n kolommen waarbij n gelijkstaat aan het aantal unieke waarden in de kolom. Het getal 1 wordt toegewezen aan de juiste kolom per rij en 0 aan de overige kolommen die voor de categorie zijn gegenereerd. Dankzij categorische encoding kan iedere unieke variabele onafhankelijk van de anderen worden geëvalueerd. Dit is anders dan een numerieke waarde die relatief ten opzichte van de andere waarden in de kolom wordt geëvalueerd.

Het voorbeeld in de tabel geeft aan hoe de categorische kolom MarketingSource one-hot encoded is. Het resultaat is vier nieuwe kolommen: één per unieke marketingbron. In de eerste rij heeft Person_1 marketingsource 'Facebook'. Dit wordt vertegenwoordigd door 1 in de nieuwe Facebook-kolom en 0 in de andere kolommen.

Categorische encoding van de kolom MarketingSource

Tabel met voorbeeldgegevens.
GERELATEERD LESMATERIAAL:

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!