Omówienie ważności SHAP w uczeniu eksperymentów
Ważność SHAP dostarcza ważnych wniosków na temat predykcji utworzonych w eksperymentach. Może pomóc w zrozumieniu, które cechy są najistotniejsze dla predykcji.
Wartości SHAP wskazują, w jakim stopniu każda cecha przyczynia się do przewidywanej wartości celu, biorąc pod uwagę wszystkie inne cechy z tego wiersza.
Po nauczeniu wersji eksperymentu wybierz model. Wykres Ważność SHAP na karcie Modele pod tabelą wizualizuje dane SHAP z predykcji modelu utworzonych na podstawie danych wstrzymania (testowych).
Ten temat pomocy koncentruje się na ważności SHAP w uczeniu eksperymentów. Informacje na temat zestawów danych ważności SHAP wygenerowanych podczas predykcji zawiera temat Generowanie zestawów danych SHAP podczas predykcji.
Przegląd
Ważność SHAP mierzy się na poziomie wiersza. Przedstawia ona, jak cecha wpływa na predykcję pojedynczego wiersza w stosunku do innych cech w tym wierszu oraz do średniego wyniku w zestawie danych. Wartość ma zarówno kierunek, jak i wielkość, ale w przypadku uczenia modelu ważność SHAP jest reprezentowana w postaci wartości bezwzględnej.
Na wykresie ważności SHAP wartości na poziomie wierszy są agregowane. Pozwala to zrozumieć wpływ cech w podzestawach danych.
Klasyfikacja binarna i eksperymenty z regresją
W eksperymencie z klasyfikacją binarną lub regresją wykres ważności SHAP dla każdej wersji modelu jest wykresem słupkowym przedstawiającym średnią bezwzględną wartość SHAP dla każdej cechy w eksperymencie. Ważność SHAP jest sortowana od najwyższej do najniższej wartości. Wykres wskazuje, które cechy wywierają największy, a który najmniejszy wpływ na przewidywany wynik celu, niezależnie od tego, co zostanie uznane za ten wynik.
Eksperymenty z klasyfikacją wieloklasową
W eksperymencie z klasyfikacją wieloklasową istnieje wiele opcji prezentacji wykresu ważności SHAP. Dostępne są następujące opcje:
Wartości SHAP cech prezentowane jako suma
Wartości SHAP cech rozdzielone według klas
Wykresy ważności SHAP z jedną klasą
Wartości SHAP cech prezentowane jako suma
Domyślnie wykres ważności SHAP zostanie skonfigurowany z ustawieniem Wszystkie klasy: Średnie SHAP cechy.
Ta konfiguracja pokazuje ważność SHAP każdej cechy, niezależnie od tego, jaki jest przewidywany wynik celu. Cechy na wykresie są posortowane według całkowitej średniej wartości bezwzględnej SHAP i nie są rozdzielane według klas.
Wartości SHAP cech rozdzielone według klas
Aby wyświetlić wpływ każdej cechy na wynik jako wartości każdej klasy w eksperymencie, wybierz ustawienie SHAP cech wg klas. Konfigurację można ustawić na Zgrupowane lub Skumulowane. Średnie bezwzględne wartości SHAP dla każdej klasy w eksperymencie przedstawiono różnymi kolorami, aby umożliwić porównanie według klas.
Załóżmy na przykład, że pole celu w eksperymencie ma cztery możliwe klasy lub wyniki (plan fioletowy, plan zielony, plan niebieski lub plan czerwony). Wielokolorowy pasek dla każdej cechy pokaże, jaki wpływ ta cecha wywarła na każdy z czterech możliwych wyników eksperymentu. Jeśli spojrzysz na całkowitą długość słupka, zobaczysz całkowity wpływ, jaki cecha wywarła na predykcję celu, niezależnie od przewidywanego wyniku.
Wykresy ważności SHAP z jedną klasą
Możesz także wyświetlić wykres ważności SHAP dla każdego z możliwych wyników prognozy celu. Prezentowane są średnie bezwzględne wartości SHAP dla przewidywanych wyników pojedynczej klasy.
Jeżeli na przykład cel Twojego eksperymentu ma cztery możliwe wyniki, możesz wyświetlić cztery osobne wykresy przedstawiające najbardziej wpływowe cechy dla predykcji, które dają każdy z czterech możliwych wyników.
Obliczanie wartości SHAP
Wartości SHAP są obliczane dla różnych algorytmów. Ważność SHAP jest obliczana dwiema różnymi metodami:
SHAP dla modeli drzewa: szybka i dokładna metoda szacowania wartości SHAP dla modeli drzewa
SHAP dla modeli liniowych: metoda obliczania wartości SHAP dla modeli liniowych
Algorytm | Obsługiwane typy modeli | Metoda obliczania SHAP |
---|---|---|
Klasyfikacja las losowy | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP dla modeli drzewa |
Klasyfikacja XGBoost | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP dla modeli drzewa |
Klasyfikacja LightGBM | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP dla modeli drzewa |
Klasyfikacja CatBoost | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP dla modeli drzewa |
Regresja logistyczna | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP dla modeli liniowych |
Regresja lasso | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP dla modeli liniowych |
Regresja metodą sieci elastycznej | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP dla modeli liniowych |
Naiwny gaussowski klasyfikator Bayesa | Klasyfikacja binarna, klasyfikacja wieloklasowa | SHAP nieobliczane |
Regresja CatBoost | Regresja | SHAP dla modeli drzewa |
Regresja LightGBM | Regresja | SHAP dla modeli drzewa |
Regresja liniowa | Regresja | SHAP dla modeli liniowych |
Regresja las losowy | Regresja | SHAP dla modeli drzewa |
Regresja SGD | Regresja | SHAP dla modeli liniowych |
Regresja XGBoost | Regresja | SHAP dla modeli drzewa |
Analiza kluczowych czynników
Możesz tworzyć analizy kluczowych czynników bezpośrednio w aplikacji Qlik Sense, aby porównać znaczenie poszczególnych czynników przy ustalaniu danych obserwowanych dla konkretnego wskaźnika biznesowego lub efektywności. Analiza kluczowych czynników polega na obliczaniu wartości SHAP na poziomie wiersza dla każdego uwzględnianego czynnika i wyświetlaniu ich w formie zagregowanej. Zapewnia to ogólny wgląd w trendy i zachowania w danych aplikacji. Wyniki analiz kluczowych czynników możesz wykorzystywać do doskonalenia umiejętności korzystania z danych w swojej organizacji i podejmowania bardziej świadomych, skutecznych decyzji.
Więcej informacji zawiera temat Odkrywanie kluczowych czynników wpływających na Twoje dane za pomocą analizy kluczowych czynników.