Ga naar hoofdinhoud Ga naar aanvullende inhoud

Kenmerkbelang

De mate van belang van een kenmerk meet hoeveel impact elk kenmerk op het doel heeft. Dit kan u helpen problemen met de gegevensverzameling te identificeren en het model te verbeteren. Het kenmerkbelang bestaat uit twee verschillende visualisaties: permutation importance en SHAP importance.

De simplistische interpretatie van het kenmerkbelang is dat de wijziging van de voor het kenmerk belangrijkste variabele de doelvariabele meer zou veranderen dan een andere variabele. Wijziging van twee van de voor het kenmerk belangrijkste variabelen heeft hoogstwaarschijnlijk meer impact dan wijziging van slechts één variabele. Maar het principe is dat iets met zeer weinig kenmerkbelang waarschijnlijk is niet veel voorspellingskracht heeft. Beheer of wijziging ervan maakt waarschijnlijk geen verschil uit.

Kenmerkbelang gebruiken

De mate van belang kenmerken kan behulpzaam zijn bij de identificatie van problemen met de gegevens die worden gebruikt om het model te trainen. Stel bijvoorbeeld dat we proberen te voorspellen of een verkoopkans al dan niet gesloten gaat worden, maar dat we vergeten en kolom uit te zonderen die de sluitingsdatum van de verkoop bevat. Dit zou waarschijnlijk de beste kolom voor de voorspelling zijn met daardoor het grootste kenmerkbelang. Als we deze kolom opnemen, zou het model beter presteren dan in werkelijkheid, omdat we bij het voorspellen van de binaire uitkomst van de vraag of een verkoop al dan niet sluit, geen toegang hebben tot de sluitingsdatum.

De mate van belang van een kenmerk kan u daarnaast ook helpen om manieren te vinden om een model iteratief beter te maken. De meeste kenmerkbelangwaarden kunnen soms een goede basis vormen om op te segmenteren. Zo zou een autopay-label zeer belangrijk voor het kenmerk zijn. We kunnen dit kenmerk gebruiken om de gegevens te segmenteren en één model te trainen op klanten waarvoor autopay is ingesteld en een ander model voor klanten zonder autopay. De twee modellen presteren mogelijk beter dan ons eerste model.

In andere gevallen kan het zijn dat u kenmerken wilt vastleggen of bewerken die een betere afspiegeling zijn van wat een belangrijkere kenmerkvariabele beschrijft, zonder redundantie toe te voegen. Zo zou een zeer belangrijke kenmerkvariabele bijvoorbeeld de productfamilie zijn dat een bedrijf produceert. Het is mogelijk beter om de productfamilie in een paar, voor de producten meer beschrijvende kenmerken te verdelen.

Permutation importance en SHAP importance vergelijken

Permutation importance en SHAP importance zijn alternatieve manieren om het belang van een kenmerk te meten. Het voornaamste verschil is dat permutation importance is gebaseerd op de afname van de prestaties van een model en SHAP importance op de omvang van kenmerktoewijzingen.

Zo gebruikt u de waarden

Permutation importance kan worden gebruikt om:

  • Te begrijpen welke kenmerken moeten worden behouden en welke moeten worden uitgesloten.

  • Te controleren op lekken van gegevens.

  • Te begrijpen welke kenmerken het belangrijkste zijn voor de nauwkeurigheid van het model.

  • Meer bewerking van kenmerken te begeleiden.

SHAP importance kan worden gebruikt om:

  • Te begrijpen welke kenmerken de meeste invloed hebben op de voorspelde uitkomst.

  • Dieper in een kenmerk te duiken en te begrijpen hoe de verschillende waarden van dat kenmerk de voorspelling beïnvloeden.

  • Te begrijpen welke rijen of subsets in de gegevens de meeste invloed hebben.

Gegevensniveau

Permutation importance wordt berekend op basis van de gehele gegevensverzameling. En met name hoeveel de nauwkeurigheid van de gehele gegevensverzameling verandert wanneer een kenmerk wordt uitgesloten. Het kan niet worden gebruikt om de invloed op afzonderlijke rijen te begrijpen.

SHAP importance wordt berekend op rijniveau en kan worden gebruikt om te begrijpen wat belangrijk is voor een specifieke rij. De waarden weerspiegelen hoe een kenmerk de voorspelling van één rij beïnvloedt ten opzichte van de gemiddelde uitkomst in de gegevensverzameling.

Invloed van kenmerkwaarden

Permutation importance kan niet worden gebruikt om inzicht te krijgen in welke waarden in een kenmerk de belangrijkste zijn.

SHAP importance-waarden kunnen worden gebruikt om inzicht te krijgen in hoe de waarden in een specifiek kenmerk de uitkomst beïnvloeden.

Richting

Permutation importance bevat geen richting.

SHAP importance-waarden zijn directioneel. Ze kunnen positief of negatief zijn, afhankelijk van in welke richting ze de voorspelde uitkomst hebben beïnvloed.

Omvang

De omvang van permutation importance meet hoe belangrijk het kenmerk is voor de algehele voorspelling van het model.

De omvang van SHAP importance is hoeveel een specifiek kenmerk de voorspelling van een rij beïnvloedt om anders te zijn dan de gemiddelde voorspelling voor de gegevensverzameling.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!