Wybór najlepszego modelu dla siebie
Podczas analizy wyników eksperymentu ważne jest, aby szukać modeli o określonych, które są ważne dla danego zastosowania. Na przykład, oprócz konsekwentnie dokładnych prognoz, możesz również potrzebować modeli, które mogą szybko dostarczać prognozy. Na karcie Modele w eksperymencie modele są zalecane na podstawie kilku aspektów analizy.
Analiza najlepszych modeli dla eksperymentu
Na podstawie używanych filtrów są przedstawiane zalecane modele, aby pomóc w rozważeniu kilku różnych aspektów jakości. Pojedynczy model może być uważany za model o najlepszych wynikach pod więcej niż jednym względem. Typy modeli o najlepszych wynikach to:
Wyświetlanie modeli o najlepszych wynikach w interfejsie użytkownika
Aby uzyskać informacje na temat wyszukiwania i sprawdzania najlepszych modeli dla danego eksperymentu, zobacz Analiza tabeli wskaźników modelu.
Najlepszy model
Na podstawie filtrów jest automatycznie wybierany najlepszy model do analizy. Najlepszy model jest wyróżniony ikoną .
Najlepszy model jest określany w Qlik Predict na podstawie zrównoważonych obliczeń, które uwzględniają zarówno wskaźniki dokładności, jak i szybkość przewidywania.
Aby określić najlepszy model, automatycznie wykonywany jest następujący proces:
-
Wybierz model z najwyższym wynikiem dla wskaźnika wydajności predykcyjnej określonej według typu modelu. Zastosowane wskaźniki to:
-
Klasyfikacja binarna: F1
-
Klasyfikacja wieloklasowa: F1 Macro.
-
Regresja: R2
-
Szeregi czasowe: MASE (lub MAE, jeśli MASE nie jest dostępne)
-
-
Na podstawie wyników wydajności z kroku 1 wybierz wszystkie modele, które mieszczą się w zakresie pięciu procent wyniku najwyżej ocenionego modelu.
-
Spośród wszystkich wybranych modeli należy wybrać model o największej szybkości przewidywania (patrz Szybkość predykcji). Ten model jest najlepszy.
Najdokładniejszy
Ważne jest, aby model był w stanie spójnie generować prognozy z wysoką dokładnością. Chociaż F1, F1 Macro i R2 zapewniają zrównoważoną punktację, która kompleksowo odzwierciedla dokładność modelu, mogą Cię również interesować surowe wskaźniki dokładności i precyzji Twoich modeli.
Najdokładniejszy model jest wyróżniony ikoną . Aby określić najdokładniejszy model, automatycznie wykonywany jest następujący proces:
-
Wybierz model z najwyższym wynikiem dla wskaźnika wydajności predykcyjnej określonej według typu modelu. Zastosowane wskaźniki to:
-
Na podstawie wyników wydajności z kroku 1 wybierz wszystkie modele, które mieszczą się w zakresie dziesięciu procent wyniku najwyżej ocenionego modelu.
-
Jedna z dwóch następujących ścieżek jest używana w zależności od typu modelu:
-
Klasyfikacja binarna:
-
Jeśli zestaw danych do uczenia jest zrównoważony, należy wybrać model o najwyższej dokładności. To jest najdokładniejszy model. Informacje na temat zastosowanego wskaźnika można znaleźć na stronie Dokładność.
-
Jeśli zestaw danych do uczenia jest niezrównoważony, należy wybrać model o najwyższej precyzji. Informacje na temat zastosowanego wskaźnika można znaleźć na stronie Precyzja.
-
-
Klasyfikacja wieloklasowa lub regresja:
-
Wybierz model o najwyższym wyniku dokładności. Stosowane są następujące wskaźniki dokładności:
-
Klasyfikacja wieloklasowa: Dokładność
-
Regresja: MAE
-
-
-
Szeregi czasowe: wybierz model z najlepszym (najniższym) wynikiem MAE.
-
Najszybszy model
Wybierając model, warto zwrócić uwagę na to, jak szybko może on dostarczać predykcje. Najszybszy model jest wyróżniony ikoną .
Szybkość przewidywania określa, który model jest najszybszy. Nadal jednak uwzględniana jest dokładność predykcyjna modeli. Wynika to z faktu, że model może być w stanie szybko generować predykcje, ale musi być również w stanie przewidywać z rozsądną dokładnością.
Aby określić najszybszy model, automatycznie wykonywany jest następujący proces:
-
Wybierz model z najwyższym wynikiem dla wskaźnika wydajności predykcyjnej określonej według typu modelu. Zastosowane wskaźniki to:
-
Jedna z dwóch następujących ścieżek jest używana w zależności od typu modelu:
-
Klasyfikacja binarna:
-
Jeśli zestaw danych do uczenia jest zrównoważony, wybierz wszystkie modele, które mają dokładność w granicach dziesięciu procent dokładności modelu wybranego w kroku 1. Informacje na temat zastosowanego wskaźnika można znaleźć na stronie Dokładność.
-
Jeśli zestaw danych szkoleniowych jest niezrównoważony, wybierz wszystkie modele, które mieszczą się w zakresie dziesięciu procent wyniku najwyżej ocenionego modelu z kroku 1. Używane są wskaźniki z kroku 1.
-
-
Klasyfikacja wieloklasowa lub regresja:
-
Wybierz wszystkie modele, które mają dokładność w granicach dziesięciu procent dokładności modelu z kroku 1. Stosowane są następujące wskaźniki dokładności:
-
Klasyfikacja wieloklasowa: Dokładność
-
Regresja: MAE
-
-
-
Szeregi czasowe: wybierz wszystkie modele w zakresie dziesięciu procent od wyniku MAE modelu z kroku 1.
-
-
Spośród wszystkich wybranych modeli należy wybrać model o największej szybkości predykcji (patrz Szybkość predykcji). Ten model jest najszybszy.
Szybkość predykcji
Szybkość przewidywania to wskaźnik modelu, który ma zastosowanie do wszystkich typów modeli: klasyfikacji binarnej, klasyfikacji wieloklasowej, regresji i szeregów czasowych. Szybkość przewidywania mierzy, jak szybko model uczenia maszynowego jest w stanie generować predykcje.
W Qlik Predict szybkość predykcji jest obliczana na podstawie połączonego czasu obliczania cech i czasu predykcji zestawu danych testowych. Jest wyświetlana w wierszach na sekundę.
Szybkość przewidywania można przeanalizować w tabeli Wskaźniki modelu po uruchomieniu wersji eksperymentu. Dane dotyczące szybkości przewidywania można również wyświetlać podczas analizowania modeli z wbudowaną analityką. Więcej informacji zawiera temat:
Uwagi
Zmierzona szybkość przewidywania jest oparta na rozmiarze zbioru danych do uczenia, a nie na danych, na których dokonywane są predykcje. Po wdrożeniu modelu można zauważyć różnice w szybkości tworzenia predykcji, jeśli dane do uczenia i do predykcji różnią się znacznie rozmiarem lub podczas tworzenia prognoz w czasie rzeczywistym na jednym lub kilku wierszach danych.
Przetrenowanie
Przetrenowanie występuje, gdy predykcyjne zachowanie modelu jest zbyt ściśle zamapowane; do zestawu danych do uczenia. Gdy model jest przetrenowany, prawdopodobnie zapamiętał tylko wzorce w zestawie danych do uczenia i nie będzie w stanie dokładnie przewidzieć przyszłych wartości.
Przetrenowanie może mieć kilka przyczyn, w tym kwestie związane z algorytmami szkoleniowymi i zbyt krótkimi lub złożonymi zestawami danych do uczenia.
W Qlik Predict przetrenowanie jest automatycznie identyfikowane poprzez analizę wyników test/uczenie dla wszystkich wskaźników używanych w procesie wyboru najlepszego modelu, z wyjątkiem szybkości predykcji:
-
Modele klasyfikacji binarnej: F1, Dokładność (dane zrównoważone), Precyzja (dane niezrównoważone)
-
Modele klasyfikacji wieloklasowej: Makro F1, Dokładność
Jeśli istnieje ponad dziesięcioprocentowa różnica między którymkolwiek z tych wskaźników podczas porównywania wyników testowania i uczenia, podejrzewa się, że model jest przetrenowany.
Jeśli model jest podejrzany o przetrenowanie, nigdy nie jest prezentowany jako model zalecany, nawet jeśli osiąga dobre wyniki. Model jest oznaczony ostrzeżeniem w tabeli Wskaźniki modelu.
Jeśli wszystkie modele wyświetlane w filtrach są podejrzane o przetrenowanie, zalecenia dotyczące modeli nie są podawane.
Rozwiązanie problemu przetrenowania
Przetrenowaniu można zaradzić poprzez
-
Rezygnację z wdrażania modeli podejrzanych o nadmierne dopasowanie.
-
Jeśli podejrzewasz problem z zestawem danych do uczenia, zobacz Przygotowywanie zestawu danych do uczenia, aby się dowiedzieć, jak przygotować dane do uczenia, aby uniknąć przetrenowania.