Functie-urgentie begrijpen
De mate van uregentie van een functie meet hoeveel impact elke functie op het doel heeft. Dit kan u helpen problemen met de gegevensverzameling te identificeren en het model te verbeteren. De functie-urgentie bestaat uit twee verschillende visualisaties: permutatie-urgentie en SHAP importance.
De simplistische interpretatie van de functie-urgentie is dat de wijziging van de voor het functie belangrijkste variabele de doelvariabele meer zou veranderen dan een andere variabele. Wijziging van twee van de voor de functie belangrijkste variabelen heeft hoogstwaarschijnlijk meer impact dan wijziging van slechts één variabele. Maar het principe is dat iets met een zeer lage functie-urgentie waarschijnlijk niet veel voorspellingskracht heeft. Beheer of wijziging ervan maakt waarschijnlijk geen verschil uit.
Functie-urgentie gebruiken
De mate van urgentie van functies kan behulpzaam zijn bij de identificatie van problemen met de gegevens die worden gebruikt om het model te trainen. Stel bijvoorbeeld dat we proberen te voorspellen of een verkoopkans al dan niet gesloten gaat worden, maar dat we vergeten en kolom uit te zonderen die de sluitingsdatum van de verkoop bevat. Dit zou waarschijnlijk de beste kolom voor de voorspelling zijn met daardoor de hoogte functie-urgentie. Als we deze kolom opnemen, zou het model beter presteren dan in werkelijkheid, omdat we bij het voorspellen van de binaire uitkomst van de vraag of een verkoop al dan niet sluit, geen toegang hebben tot de sluitingsdatum.
De mate van urgentie van een functie kan u daarnaast ook helpen om manieren te vinden om een model iteratief beter te maken. De meeste functie-urgentiewaarden kunnen soms een goede basis vormen om op te segmenteren. Zo zou een autopay-label zeer belangrijk voor de functie zijn. We kunnen deze functie gebruiken om de gegevens te segmenteren en één model te trainen op klanten waarvoor autopay is ingesteld en een ander model voor klanten zonder autopay. De twee modellen presteren mogelijk beter dan ons eerste model.
In andere gevallen kan het zijn dat u functies wilt vastleggen of bewerken die een betere afspiegeling zijn van wat een belangrijkere functievariabele beschrijft, zonder redundantie toe te voegen. Zo zou een zeer belangrijke functievariabele bijvoorbeeld de productfamilie zijn dat een bedrijf produceert. Het is mogelijk beter om de productfamilie in een paar, voor de producten meer beschrijvende functies te verdelen.
Permutation importance en SHAP importance vergelijken
Permutatie-urgentie en SHAP importance zijn alternatieve manieren om het belang van een functie te meten. Het voornaamste verschil is dat permutatie-urgentie is gebaseerd op de afname van de prestaties van een model en SHAP importance op de omvang van functietoewijzingen.
Zo gebruikt u de waarden
Permutation importance kan worden gebruikt om:
-
Te begrijpen welke functies moeten worden behouden en welke moeten worden uitgesloten.
-
Te controleren op lekken van gegevens.
-
Te begrijpen welke functies het belangrijkste zijn voor de nauwkeurigheid van het model.
-
Meer bewerking van functies te begeleiden.
SHAP importance kan worden gebruikt om:
-
Te begrijpen welke functies de meeste invloed hebben op de voorspelde uitkomst.
-
Dieper in een functie te duiken en te begrijpen hoe de verschillende waarden van deze functie de voorspelling beïnvloeden.
-
Te begrijpen welke rijen of subsets in de gegevens de meeste invloed hebben.
Gegevensniveau
Permutation importance wordt berekend op basis van de gehele gegevensverzameling. En met name hoeveel de nauwkeurigheid van de gehele gegevensverzameling verandert wanneer een functie wordt uitgesloten. Het kan niet worden gebruikt om de invloed op afzonderlijke rijen te begrijpen.
SHAP importance wordt berekend op rijniveau en kan worden gebruikt om te begrijpen wat belangrijk is voor een specifieke rij. De waarden weerspiegelen hoe een functie de voorspelling van één rij beïnvloedt ten opzichte van de gemiddelde uitkomst in de gegevensverzameling.
Invloed van functiewaarden
Permutatie-urgentie kan niet worden gebruikt om inzicht te krijgen in welke waarden in een functie de belangrijkste zijn.
SHAP importance-waarden kunnen worden gebruikt om inzicht te krijgen in hoe de waarden in een specifiek functie de uitkomst beïnvloeden.
Richting
Permutation importance bevat geen richting.
SHAP importance-waarden zijn directioneel. Ze kunnen positief of negatief zijn, afhankelijk van in welke richting ze de voorspelde uitkomst hebben beïnvloed.
Omvang
De omvang van permutatie-urgentie meet hoe belangrijk de functie is voor de algehele voorspelling van het model.
De omvang van SHAP importance is hoeveel een specifieke functie de voorspelling van een rij beïnvloedt om anders te zijn dan de gemiddelde voorspelling voor de gegevensverzameling.