Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Wybór najlepszego modelu dla siebie

Podczas analizy wyników eksperymentu ważne jest, aby szukać modeli o określonych, które są ważne dla danego zastosowania. Na przykład, oprócz konsekwentnie dokładnych prognoz, możesz również potrzebować modeli, które mogą szybko dostarczać prognozy. Na karcie Modele w eksperymencie modele są zalecane na podstawie kilku aspektów analizy.

Analiza najlepszych modeli dla eksperymentu

Tabela „Wskaźniki modelu” w eksperymencie uczenia maszynowego, z najlepszymi modelami przedstawionymi jako rekomendacje

Na podstawie używanych filtrów są przedstawiane zalecane modele, aby pomóc w rozważeniu kilku różnych aspektów jakości. Pojedynczy model może być uważany za model o najlepszych wynikach pod więcej niż jednym względem. Typy modeli o najlepszych wynikach to:

Wyświetlanie modeli o najlepszych wynikach w interfejsie użytkownika

Aby uzyskać informacje na temat wyszukiwania i sprawdzania najlepszych modeli dla danego eksperymentu, zobacz Analiza tabeli wskaźników modelu.

Najlepszy model

Na podstawie filtrów jest automatycznie wybierany najlepszy model do analizy. Najlepszy model jest wyróżniony ikoną Trofeum.

Najlepszy model jest określany w Qlik Predict na podstawie zrównoważonych obliczeń, które uwzględniają zarówno wskaźniki dokładności, jak i szybkość przewidywania.

Aby określić najlepszy model, automatycznie wykonywany jest następujący proces:

  1. Wybierz model z najwyższym wynikiem dla wskaźnika wydajności predykcyjnej określonej według typu modelu. Zastosowane wskaźniki to:

    • Klasyfikacja binarna: F1

    • Klasyfikacja wieloklasowa: F1 Macro.

    • Regresja: R2

    • Szeregi czasowe: MASE (lub MAE, jeśli MASE nie jest dostępne)

  2. Na podstawie wyników wydajności z kroku 1 wybierz wszystkie modele, które mieszczą się w zakresie pięciu procent wyniku najwyżej ocenionego modelu.

  3. Spośród wszystkich wybranych modeli należy wybrać model o największej szybkości przewidywania (patrz Szybkość predykcji). Ten model jest najlepszy.

Najdokładniejszy

Ważne jest, aby model był w stanie spójnie generować prognozy z wysoką dokładnością. Chociaż F1, F1 Macro i R2 zapewniają zrównoważoną punktację, która kompleksowo odzwierciedla dokładność modelu, mogą Cię również interesować surowe wskaźniki dokładności i precyzji Twoich modeli.

Najdokładniejszy model jest wyróżniony ikoną Cel. Aby określić najdokładniejszy model, automatycznie wykonywany jest następujący proces:

  1. Wybierz model z najwyższym wynikiem dla wskaźnika wydajności predykcyjnej określonej według typu modelu. Zastosowane wskaźniki to:

    • Klasyfikacja binarna: F1

    • Klasyfikacja wieloklasowa: Makro F1

    • Regresja: R2

    • Szereg czasowy: MASE (w razie braku MASE wybierz model z najniższym MAE)

  2. Na podstawie wyników wydajności z kroku 1 wybierz wszystkie modele, które mieszczą się w zakresie dziesięciu procent wyniku najwyżej ocenionego modelu.

  3. Jedna z dwóch następujących ścieżek jest używana w zależności od typu modelu:

    1. Klasyfikacja binarna:

      • Jeśli zestaw danych do uczenia jest zrównoważony, należy wybrać model o najwyższej dokładności. To jest najdokładniejszy model. Informacje na temat zastosowanego wskaźnika można znaleźć na stronie Dokładność.

      • Jeśli zestaw danych do uczenia jest niezrównoważony, należy wybrać model o najwyższej precyzji. Informacje na temat zastosowanego wskaźnika można znaleźć na stronie Precyzja.

    2. Klasyfikacja wieloklasowa lub regresja:

      • Wybierz model o najwyższym wyniku dokładności. Stosowane są następujące wskaźniki dokładności:

    3. Szeregi czasowe: wybierz model z najlepszym (najniższym) wynikiem MAE.

Najszybszy model

Wybierając model, warto zwrócić uwagę na to, jak szybko może on dostarczać predykcje. Najszybszy model jest wyróżniony ikoną Błyskawica.

Szybkość przewidywania określa, który model jest najszybszy. Nadal jednak uwzględniana jest dokładność predykcyjna modeli. Wynika to z faktu, że model może być w stanie szybko generować predykcje, ale musi być również w stanie przewidywać z rozsądną dokładnością.

Aby określić najszybszy model, automatycznie wykonywany jest następujący proces:

  1. Wybierz model z najwyższym wynikiem dla wskaźnika wydajności predykcyjnej określonej według typu modelu. Zastosowane wskaźniki to:

    • Klasyfikacja binarna: F1

    • Klasyfikacja wieloklasowa: Makro F1

    • Regresja: R2

    • Szereg czasowy: MASE (w razie braku MASE wybierz model z najniższym MAE)

  2. Jedna z dwóch następujących ścieżek jest używana w zależności od typu modelu:

    1. Klasyfikacja binarna:

      • Jeśli zestaw danych do uczenia jest zrównoważony, wybierz wszystkie modele, które mają dokładność w granicach dziesięciu procent dokładności modelu wybranego w kroku 1. Informacje na temat zastosowanego wskaźnika można znaleźć na stronie Dokładność.

      • Jeśli zestaw danych szkoleniowych jest niezrównoważony, wybierz wszystkie modele, które mieszczą się w zakresie dziesięciu procent wyniku najwyżej ocenionego modelu z kroku 1. Używane są wskaźniki z kroku 1.

    2. Klasyfikacja wieloklasowa lub regresja:

      • Wybierz wszystkie modele, które mają dokładność w granicach dziesięciu procent dokładności modelu z kroku 1. Stosowane są następujące wskaźniki dokładności:

    3. Szeregi czasowe: wybierz wszystkie modele w zakresie dziesięciu procent od wyniku MAE modelu z kroku 1.

  3. Spośród wszystkich wybranych modeli należy wybrać model o największej szybkości predykcji (patrz Szybkość predykcji). Ten model jest najszybszy.

Szybkość predykcji

Szybkość przewidywania to wskaźnik modelu, który ma zastosowanie do wszystkich typów modeli: klasyfikacji binarnej, klasyfikacji wieloklasowej, regresji i szeregów czasowych. Szybkość przewidywania mierzy, jak szybko model uczenia maszynowego jest w stanie generować predykcje.

W Qlik Predict szybkość predykcji jest obliczana na podstawie połączonego czasu obliczania cech i czasu predykcji zestawu danych testowych. Jest wyświetlana w wierszach na sekundę.

Szybkość przewidywania można przeanalizować w tabeli Wskaźniki modelu po uruchomieniu wersji eksperymentu. Dane dotyczące szybkości przewidywania można również wyświetlać podczas analizowania modeli z wbudowaną analityką. Więcej informacji zawiera temat:

Uwagi

Zmierzona szybkość przewidywania jest oparta na rozmiarze zbioru danych do uczenia, a nie na danych, na których dokonywane są predykcje. Po wdrożeniu modelu można zauważyć różnice w szybkości tworzenia predykcji, jeśli dane do uczenia i do predykcji różnią się znacznie rozmiarem lub podczas tworzenia prognoz w czasie rzeczywistym na jednym lub kilku wierszach danych.

Przetrenowanie

Przetrenowanie występuje, gdy predykcyjne zachowanie modelu jest zbyt ściśle zamapowane; do zestawu danych do uczenia. Gdy model jest przetrenowany, prawdopodobnie zapamiętał tylko wzorce w zestawie danych do uczenia i nie będzie w stanie dokładnie przewidzieć przyszłych wartości.

Przetrenowanie może mieć kilka przyczyn, w tym kwestie związane z algorytmami szkoleniowymi i zbyt krótkimi lub złożonymi zestawami danych do uczenia.

W Qlik Predict przetrenowanie jest automatycznie identyfikowane poprzez analizę wyników test/uczenie dla wszystkich wskaźników używanych w procesie wyboru najlepszego modelu, z wyjątkiem szybkości predykcji:

Jeśli istnieje ponad dziesięcioprocentowa różnica między którymkolwiek z tych wskaźników podczas porównywania wyników testowania i uczenia, podejrzewa się, że model jest przetrenowany.

Jeśli model jest podejrzany o przetrenowanie, nigdy nie jest prezentowany jako model zalecany, nawet jeśli osiąga dobre wyniki. Model jest oznaczony ostrzeżeniem Ostrzeżenie w tabeli Wskaźniki modelu.

Jeśli wszystkie modele wyświetlane w filtrach są podejrzane o przetrenowanie, zalecenia dotyczące modeli nie są podawane.

Rozwiązanie problemu przetrenowania

Przetrenowaniu można zaradzić poprzez

  • Rezygnację z wdrażania modeli podejrzanych o nadmierne dopasowanie.

  • Jeśli podejrzewasz problem z zestawem danych do uczenia, zobacz Przygotowywanie zestawu danych do uczenia, aby się dowiedzieć, jak przygotować dane do uczenia, aby uniknąć przetrenowania.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!