Omówienie algorytmów modeli

Algorytm to matematyczny przepis na model. Pobiera dane wejściowe — Twój zestaw danych — i generuje dane wyjściowe — model. Każdy algorytm ma różne mocne i słabe strony.

Gdy wybierzesz cel, AutoML automatycznie wybierze najlepsze algorytmy dla danego zastosowania. Cel określa, jakich algorytmów należy użyć.

Algorytmów, które działają najlepiej w przypadku problemów związanych z klasyfikacją binarną i wieloklasową, używa się, gdy:

Cel ma tylko dwie unikatowe wartości, na przykład „Czy klient anuluje subskrypcję?” — Tak lub Nie.
Celem jest wartość ciągu zawierająca od trzech do dziesięciu unikatowych wartości. Na przykład określenie optymalnej kompozycji kampanii z celem „czerwonym”, „niebieskim”, „zielonym” lub „żółtym”.

Algorytmów, które działają najlepiej w przypadku problemów związanych z regresją, używa się, jeśli celem jest kolumna liczbowa. Prognozowanie, ile klient kupi, jest przykładem problemu z regresją.

Algorytmy do problemów związanych z klasyfikacją binarną i wieloklasową

AutoML używa następujących algorytmów do problemów związanych z klasyfikacją binarną i wieloklasową:

Klasyfikacja CatBoost
Regresja metodą sieci elastycznej
Naiwny gaussowski klasyfikator Bayesa
Regresja lasso
Klasyfikacja LightGBM
Regresja logistyczna
Klasyfikacja las losowy
Klasyfikacja XGBoost

Algorytmy do problemów związanych z regresją

AutoML używa następujących algorytmów do problemów związanych z regresją:

Regresja CatBoost
Regresja LightGBM
Regresja liniowa
Regresja las losowy
Regresja SGD
Regresja XGBoost

Różne typy modeli

Modele można podzielić na modele regresji, zespoły i inne typy modeli uczenia maszynowego.

Modele regresji

Modele regresji lub ogólne modele liniowe to modele, które niezależnie od siebie szukają trendów w dziedzinie każdej zmiennej. Podobnie jak w równaniu algebraicznym y = mx+b algorytm stara się wybrać m oraz b, które zapewnią średnio najwyższą dokładność dla każdej wartości x i y. Koncepcja ta jest zasadniczo taka sama, gdy istnieje więcej niż jedna zmienna. Regresja liniowa i regresja logistyczna to przykłady modeli regresji odpowiednio dla problemów związanych z regresją i problemów związanych z klasyfikacją.

W przypadku problemów związanych z klasyfikacją wynikiem modelu regresji jest prawdopodobieństwo, że próbka jest klasą dodatnią. Oznacza to, że y jest równe prawdopodobieństwu, a nie rzeczywistej wartości.

Regresje dobrze sprawdzają się w znajdowaniu liniowych trendów w danych, ale czasami występują relacje, które nie są liniowe. Aby regresja dobrze pasowała do wzorca nieliniowego, przed uczeniem modelu wymagana jest transformacja danych. Korzyścią płynącą z dobrego zrozumienia zależności liniowych jest to, że relacje liniowe zazwyczaj najlepiej sprawdzają się w przypadku ekstrapolacji. W tabeli wymieniono plusy i minusy modeli regresji.

Plusy	Minusy
Dobrze się sprawdza w ekstrapolacji Dobrze się sprawdza w znajdowaniu trendów liniowych dla niezależnych zmiennych Dobrze się sprawdza z dużymi danymi z tej samej populacji Prosty do zrozumienia	Słabo się sprawdza w wykorzystywaniu wzorców między zmiennymi Słabo się sprawdza w dopasowywaniu nieliniowych trendów Czasami jest zbyt uproszczony

Modele zespolone

Zespoły powstają w wyniku połączenia większej liczby modeli. Można to porównać do głosowania grupy ludzi z różnych środowisk i podejmowania decyzji na podstawie średniej głosów. Przykładami modeli zespołowych są las losowy i XGBoost.

Zespoły mogą rozwiązywać problemy związane z zarówno regresją, jak i klasyfikacją. Dobrze się sprawdzają w znajdowaniu zależności nieliniowych i ustalaniu, w jaki sposób interakcje między zmiennymi wpływają na cel. Chociaż zespoły są dobre w uczeniu się wzorców w zakresie danych, na których są uczone, słabo radzą sobie z przewidywaniem wartości spoza zakresu, który był dla nich widoczny. W tabeli wymieniono plusy i minusy modeli zespolonych.

Plusy	Minusy
Dobrze się sprawdza w wykorzystywaniu wzorców między zmiennymi Dobrze się sprawdza w wyszukiwaniu nieliniowych trendów Dobrze się sprawdza z dużymi danymi z tej samej populacji	Słabo się sprawdza w ekstrapolacji Nie jest tak łatwy w interpretacji

Inne typy modeli

Inne typy modeli obejmują wszystkie pozostałe typy modeli. Przykładami są Najbliżsi sąsiedzi i Naiwny gaussowski klasyfikator Bayesa. Te typy modeli zasadniczo próbują utworzyć nową przestrzenną reprezentację danych, często tworząc pewnego rodzaju wskaźnik dystansu, określający, jak bardzo różne są dwa rekordy. Mogą dobrze się sprawdzać w przypadku trendów nieliniowych, ale generują większe koszty obliczeniowe wraz ze wzrostem zestawu danych. W tabeli wymieniono plusy i minusy innych modeli.

Plusy	Minusy
Dobrze się sprawdza w wykorzystywaniu wzorców między zmiennymi Dobrze się sprawdza w wyszukiwaniu nieliniowych trendów	Słabo się sprawdza w ekstrapolacji Generuje większe koszty obliczeniowe w przypadku większych zestawów danych

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!

Przekaż tu opinię