Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Algorytmy

Algorytm to matematyczny przepis na model. Pobiera dane wejściowe — Twój zestaw danych — i generuje dane wyjściowe — model. Każdy algorytm ma różne mocne i słabe strony.

Gdy wybierzesz cel, AutoML automatycznie wybierze najlepsze algorytmy dla danego zastosowania. Cel określa, jakich algorytmów należy użyć.

Algorytmów, które działają najlepiej w przypadku problemów związanych z klasyfikacją binarną i wieloklasową, używa się, gdy:

  • Cel ma tylko dwie unikatowe wartości, na przykład „Czy klient anuluje subskrypcję?” — Tak lub Nie.

  • Celem jest wartość ciągu zawierająca od trzech do dziesięciu unikatowych wartości. Na przykład określenie optymalnej kompozycji kampanii z celem „czerwonym”, „niebieskim”, „zielonym” lub „żółtym”.

Algorytmów, które działają najlepiej w przypadku problemów związanych z regresją, używa się, jeśli celem jest kolumna liczbowa. Prognozowanie, ile klient kupi, jest przykładem problemu z regresją.

Algorytmy do problemów związanych z klasyfikacją binarną i wieloklasową

AutoML używa następujących algorytmów do problemów związanych z klasyfikacją binarną i wieloklasową:

  • Klasyfikacja CatBoost

  • Regresja metodą sieci elastycznej

  • Naiwny gaussowski klasyfikator Bayesa

  • Regresja lasso

  • Klasyfikacja LightGBM

  • Regresja logistyczna

  • Klasyfikacja las losowy

  • Klasyfikacja XGBoost

Algorytmy do problemów związanych z regresją

AutoML używa następujących algorytmów do problemów związanych z regresją:

  • Regresja CatBoost

  • Regresja LightGBM

  • Regresja liniowa

  • Regresja las losowy

  • Regresja SGD

  • Regresja XGBoost

Różne typy modeli

Modele można podzielić na modele regresji, zespoły i inne typy modeli uczenia maszynowego.

Modele regresji

Modele regresji lub ogólne modele liniowe to modele, które niezależnie od siebie szukają trendów w dziedzinie każdej zmiennej. Podobnie jak w równaniu algebraicznym y = mx+b algorytm stara się wybrać m oraz b, które zapewnią średnio najwyższą dokładność dla każdej wartości x i y. Koncepcja ta jest zasadniczo taka sama, gdy istnieje więcej niż jedna zmienna. Regresja liniowa i regresja logistyczna to przykłady modeli regresji odpowiednio dla problemów związanych z regresją i problemów związanych z klasyfikacją.

W przypadku problemów związanych z klasyfikacją wynikiem modelu regresji jest prawdopodobieństwo, że próbka jest klasą dodatnią. Oznacza to, że y jest równe prawdopodobieństwu, a nie rzeczywistej wartości.

Regresje dobrze sprawdzają się w znajdowaniu liniowych trendów w danych, ale czasami występują relacje, które nie są liniowe. Aby regresja dobrze pasowała do wzorca nieliniowego, przed uczeniem modelu wymagana jest transformacja danych. Korzyścią płynącą z dobrego zrozumienia zależności liniowych jest to, że relacje liniowe zazwyczaj najlepiej sprawdzają się w przypadku ekstrapolacji. W tabeli wymieniono plusy i minusy modeli regresji.

Plusy Minusy
  • Dobrze się sprawdza w ekstrapolacji

  • Dobrze się sprawdza w znajdowaniu trendów liniowych dla niezależnych zmiennych

  • Dobrze się sprawdza z dużymi danymi z tej samej populacji

  • Prosty do zrozumienia

  • Słabo się sprawdza w wykorzystywaniu wzorców między zmiennymi

  • Słabo się sprawdza w dopasowywaniu nieliniowych trendów

  • Czasami jest zbyt uproszczony

Modele zespolone

Zespoły powstają w wyniku połączenia większej liczby modeli. Można to porównać do głosowania grupy ludzi z różnych środowisk i podejmowania decyzji na podstawie średniej głosów. Przykładami modeli zespołowych są las losowy i XGBoost.

Zespoły mogą rozwiązywać problemy związane z zarówno regresją, jak i klasyfikacją. Dobrze się sprawdzają w znajdowaniu zależności nieliniowych i ustalaniu, w jaki sposób interakcje między zmiennymi wpływają na cel. Chociaż zespoły są dobre w uczeniu się wzorców w zakresie danych, na których są uczone, słabo radzą sobie z przewidywaniem wartości spoza zakresu, który był dla nich widoczny. W tabeli wymieniono plusy i minusy modeli zespolonych.

Plusy Minusy
  • Dobrze się sprawdza w wykorzystywaniu wzorców między zmiennymi

  • Dobrze się sprawdza w wyszukiwaniu nieliniowych trendów

  • Dobrze się sprawdza z dużymi danymi z tej samej populacji

  • Słabo się sprawdza w ekstrapolacji

  • Nie jest tak łatwy w interpretacji

Inne typy modeli

Inne typy modeli obejmują wszystkie pozostałe typy modeli. Przykładami są Najbliżsi sąsiedzi i Naiwny gaussowski klasyfikator Bayesa. Te typy modeli zasadniczo próbują utworzyć nową przestrzenną reprezentację danych, często tworząc pewnego rodzaju wskaźnik dystansu, określający, jak bardzo różne są dwa rekordy. Mogą dobrze się sprawdzać w przypadku trendów nieliniowych, ale generują większe koszty obliczeniowe wraz ze wzrostem zestawu danych. W tabeli wymieniono plusy i minusy innych modeli.

Plusy Minusy
  • Dobrze się sprawdza w wykorzystywaniu wzorców między zmiennymi

  • Dobrze się sprawdza w wyszukiwaniu nieliniowych trendów

  • Słabo się sprawdza w ekstrapolacji

  • Generuje większe koszty obliczeniowe w przypadku większych zestawów danych

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!