Ocena modeli klasyfikacji binarnej
W modelach klasyfikacji binarnej wyniki dzielą się na dwie kategorie, na przykład Tak lub Nie. Dokładność podziału wyników można ocenić na podstawie różnych wskaźników.
Wskaźniki ujawniają różne mocne i słabe strony modelu. Żaden z nich nie może być prawdziwą miarą dobrego dopasowania sam w sobie. W szczególności należy zauważyć, że świetny ogólny wynik dokładności nie oznacza, że świetny jest sam model. Na przykład, co by było, gdyby firma miała tylko 10-procentowy współczynnik konwersji? Model mógłby uzyskać 90-procentowy wynik dokładności, wskazując po prostu, że żaden lead nigdy nie dokona konwersji. W tym miejscu do gry wchodzą F1, czułość i precyzja, które pomagają w określeniu równowagi mocnych oraz słabych stron modelu. Gdyby model zakładał, że 100% leadów nie dokona konwersji, F1 wyniesie 0.
Podczas uczenia eksperymentu z klasyfikacją binarną są generowane automatycznie następujące wykresy, aby umożliwić szybką analizę wyników modeli:
Tablica pomyłek: wykres podsumowujący dokładność wyników predykcji w modelu klasyfikacji. Zob. Tablica pomyłek.
Krzywa ROC: wykres pokazujący, jak dobry jest model w przewidywaniu klasy pozytywnej, kiedy rzeczywisty wynik jest pozytywny. Zob. AUC i krzywa ROC.
Tablica pomyłek
Większość wskaźników dla problemów związanych z klasyfikacją binarną jest generowana przez różne obliczenia wartości w tablicy pomyłek. Tablica pomyłek jest jedną z wizualizacji na karcie Modele. Pokazuje, ile rzeczywistych prawdziwych i rzeczywistych fałszywych wartości zostało przewidzianych prawidłowo, z podaniem sumy dla każdej klasy. Wartości wyświetlane na wykresie są oparte na danych wstrzymanych automatycznie, które są używane do sprawdzania efektywności modelu po uczeniu. Każdy rekord w zestawie danych jest przypisywany do jednego z następujących kwadrantów:
-
Prawdziwie pozytywne (true positive, TP) to rzeczywiste wartości prawdziwe, które zostały prawidłowo przewidziane jako prawdziwe.
-
Fałszywie pozytywne (false positive, FP) to rzeczywiste fałszywe wartości, które zostały błędnie przewidziane jako prawdziwe.
-
Fałszywie negatywne (false negative, FN) to rzeczywiste wartości prawdziwe, które zostały błędnie przewidziane jako fałszywe.
-
Prawdziwie negatywne (true negative, TN) to rzeczywiste fałszywe wartości, które zostały prawidłowo przewidziane jako fałszywe.
Pod liczbami w każdym kwadrancie można również zobaczyć wartości procentowe czułości (TP), fallout (FP), miss rate (FN) i swoistość (TN). Wskaż kursorem wartość, aby zobaczyć etykietkę ze wskaźnikiem.
Każdy realistyczny przypadek wykaże w tabeli pomyłek wartości fałszywie pozytywne i fałszywie negatywne. Doskonałe predykcje na podstawie danych do uczenia wskazywałyby, że model zapamiętał odpowiedzi i będzie słabo działał w świecie rzeczywistym. Warto się upewnić, czy udało się uchwycić wystarczającą liczbę prawdziwych wartości pozytywnych i negatywnych.
F1
Wynik F1 to wskaźnik, który próbuje uwzględnić dokładność, gdy klasy są niezrównoważone, koncentrując się na dokładności pozytywnych predykcji i rzeczywistych pozytywnych rekordów. Innymi słowy, wskazuje on, jak dokładnie model oddaje wyniki, które mają znaczenie. Wskaźnik ten próbuje równoważyć czułość i precyzję, aby w najlepszym przypadku znaleźć coś pośrodku między nimi. Należy zauważyć, że im bardziej niezrównoważony jest zestaw danych, tym niższy może być wynik F1, nawet przy tej samej dokładności ogólnej.
Jeśli wartość F1 jest wysoka, wszystkie pozostałe wskaźniki oceny będą również wysokie. Jeśli wartość jest niska, oznacza to, że należy przeprowadzić dalszą analizę. Jeśli jednak wynik jest bardzo wysoki lub wynik z danymi wstrzymania jest znacznie niższy niż wynik walidacji krzyżowej, może to świadczyć o wycieku danych.
F1 oblicza się jako: 2 x ((Precyzja x Czułość) / (Precyzja + Czułość))
Czułość
Czułość jest wskaźnikiem wartości prawdziwie pozytywnych. Mierzy, jak często model dokładnie przewidywał prawdę, kiedy coś faktycznie było prawdą. To znaczy, jak dokładnie model znajdował wszystkie prawdziwe przypadki w zestawie danych. Czułość jest miarą dobrej pamięci klasy pozytywnej. Sposób obliczania: TP / (TP + FN)
Precyzja
Precyzja jest również znana jako dodatnia wartość predykcyjna. Mierzy prawdopodobieństwo prawidłowej predykcji przez model, że coś jest prawdziwe. Sposób obliczania: TP / (TP + FP)
Kompromis między czułością a precyzją
Czułość można opisać jako szerokość sieci zarzucanej przez model: czy objął wszystkie prawdy, nawet jeśli dokonał pewnej liczby fałszywych predykcji? Czy uchwycił jak najwięcej wartości prawdziwych? Precyzja jest trochę odwrotna względem czułości Tutaj chcemy mieć pewność, że gdy model przewiduje prawdę, robi to bardzo precyzyjnie. Jednak przy dużej precyzji otrzymamy więcej wyników fałszywie negatywnych, kiedy to model przewiduje fałsz, nawet jeśli coś jest prawdą.
Między niepomijaniem żadnych prawdziwych wyników a pewnością, że żaden z wyników przewidywanych jako prawdziwy nie był w rzeczywistości fałszywy, zachodzi kompromis. To, czy wskazana jest większa precyzja, czy większa czułość, zależy od przypadku. Na przykład, w przypadku predykcji diagnozy choroby, chcesz mieć pewność, że nie przeoczysz pacjentów, którzy faktycznie chorowali, czyli że unikniesz wyników fałszywie negatywnych.
-
Jeśli „koszt” wyników fałszywie negatywnych jest wysoki, uzasadniony może być model nastawiony na wysoką czułość.
-
Jeśli wysoki jest „koszt” wyników fałszywie pozytywnych, uzasadniony może być model nastawiony na wysoką precyzję.
Dokładność
Dokładność mierzy średnio, jak często model dokonywał poprawnych predykcji. Sposób obliczania: (TP + TN) / (wszystkie predykcje)
Swoistość
Swoistość to wskaźnik wartości prawdziwie negatywnych. Mierzy, jak często model dokładnie przewidywał fałsz, gdy coś faktycznie było fałszywe. Sposób obliczania: TN / (FP + TN)
MCC
Współczynnik korelacji Matthewsa (MCC) mieści się w zakresie od -1 do 1, gdzie 1 oznacza, że model prawidłowo przewidział każdą próbkę. Sposób obliczania MCC: ((TP x TN) - (FP x FN)) / [(TP + FP) x (FN + TN) x (FP + TN) x (TP + FN)]^(1/2)
Współczynnik braków
Miss rate to odsetek wyników fałszywie negatywnych. Jest to stosunek liczby fałszywie negatywnych wyników do całkowitej liczby rzeczywistych pozytywnych zdarzeń. Sposób obliczania: FN / (TP + FN)
Częstość fałszywych alarmów
Fallout to współczynnik wyników fałszywie pozytywnych. Jest to stosunek liczby wyników fałszywie pozytywnych do całkowitej liczby rzeczywistych negatywnych zdarzeń. Sposób obliczania: FP / (FP + TN)
NPV
Negatywna wartość predykcyjna (NPV) mierzy prawdopodobieństwo prawidłowej predykcji przez model, że coś jest fałszywe. Sposób obliczania: TN / (FN + TN)
Strata logistyczna
Strata logistyczna to powszechnie stosowana miara dokładności w regresji logistycznej. Niższa wartość straty logistycznej oznacza lepsze predykcje — idealny model miałby stratę logistyczną równą 0.
AUC i krzywa ROC
Pole pod krzywą (area under the curve, AUC) to bardziej skomplikowana miara dokładności, która może pomóc w zrozumieniu deterministycznego charakteru modelu. Opisuje ona, jak dobry jest model w przewidywaniu klasy pozytywnej, kiedy rzeczywisty wynik jest pozytywny.
AUC definiuje się jako pole pod krzywą ROC. Krzywa ROC przedstawia wskaźnik wyników fałszywie pozytywnych (oś x) w porównaniu ze wskaźnikiem wartości prawdziwie pozytywnych (oś y) dla szeregu różnych wartości progu z zakresu od 0 do 1. Innymi słowy, wykreśla wskaźnik fałszywych alarmów w stosunku do wskaźnika trafień. Ta krzywa ułatwia zrozumienie, czy możliwe jest oddzielenie klas, wskazując, czy dane są wystarczająco dobre, aby można było dokładnie rozróżnić przewidywane wyniki.
Wskaźnik wartości prawdziwie pozytywnych jest obliczany jako: TP / (TP + FN)
-
Im wskaźnik wartości prawdziwie pozytywnych jest bliższy 1, czyli maksymalnemu możliwemu polu pod krzywą, tym bardziej deterministyczny jest model.
-
Im wskaźnik wartości prawdziwie pozytywnych jest bliższy 0,5, tym mniej deterministyczny jest model.
Poniższa ilustracja przedstawia dobrą krzywą ROC. Jest dobra, ponieważ krzywa powinna być jak najbardziej zbliżona do 1, co daje wysokie AUC. Linia przerywana to przypadkowa szansa, 50:50. Jeśli AUC jest niskie, krzywa jest uważana za złą.
Próg
Próg to prawdopodobieństwo prawdziwości predykcji. Stanowi kompromis między wynikami fałszywie pozytywnymi i fałszywie negatywnymi. Wartość progu jest określana dla każdego algorytmu i prawdopodobnie będzie inna dla każdego algorytmu w modelu.
Dostrajanie wartości progu
Dostrajanie wartości progu to skuteczny sposób zapewnienia, że wybrana zostanie poprawna wartość progu w celu optymalizacji wyników F1 modeli klasyfikacji binarnej. AutoML oblicza precyzję i czułość dla setek różnych możliwych progów od 0 do 1. Wybierany jest próg, który osiąga najwyższy wynik F1.
Wybranie progu — zamiast polegania na domyślnym progu 0,5 — daje bardziej niezawodne predykcje w przypadku zestawów danych, w których występuje nierównowaga liczby przypadków pozytywnych i negatywnych.
Na wykresie próg jest ustawiony na 0,5. W tym przypadku rekordy, które były rzeczywiście prawdziwe, a przewidziano mniej niż 0,5, otrzymywały przewidywaną etykietę fałszu (fałszywie negatywne).
Zmieniając próg, który decyduje o tym, czy wynikiem predykcji rekordu będzie prawda, czy fałsz, możemy uzyskać odchylenie w kierunku wyższej czułości lub większej precyzji.