Inteligentna optymalizacja modeli

Inteligentna optymalizacja modeli zapewnia automatyczne doskonalenie modeli uczonych w eksperymencie. Dzięki inteligentnej optymalizacji modeli AutoML proces iteracji wyboru cech i stosowania zaawansowanych transformacji jest realizowany za użytkownika. Mając dobrze przygotowany zestaw danych do uczenia obejmujący wszystkie odpowiednie cechy, można oczekiwać, że inteligentna optymalizacja modeli nauczy gotowe do wdrożenia modele w ramach jednej wersji.

Na czym polega inteligentna optymalizacja modeli?

Inteligentna optymalizacja modeli automatyzuje wiele aspektów procesu doskonalenia modeli. Dzięki inteligentnej optymalizacji modeli można szybko uczyć modele wysokiej jakości bez konieczności ręcznego dopracowywania wyboru cech lub dostosowywania danych wejściowych.

Używanie inteligentnej optymalizacji modeli

W przypadku nowych eksperymentów uczenia maszynowego inteligentna optymalizacja modelu jest domyślnie włączona. Można ją włączać i wyłączać dla każdej uruchamianej wersji eksperymentu.

Po uruchomieniu wersji eksperymentu z włączoną inteligentną optymalizacją wyniki optymalizacji można wyświetlić w Podsumowaniu uczenia modelu. To podsumowanie jest wyświetlane na karcie Modele w obszarze Wnioski dotyczące modelu. Wskaż kursorem podkreślone terminy, aby wyświetlić etykietkę ze szczegółowym opisem.

Podsumowanie uczenia modelu jest inne dla każdego modelu uczonego w wersji eksperymentu.

Jak działa inteligentna optymalizacja modeli

Dzięki inteligentnej optymalizacji modeli:

Uczy się więcej modeli niż w przypadku optymalizacji ręcznej. Wybór cech odbywa się na poziomie modelu. Oznacza to, że w odróżnieniu od optymalizacji ręcznej każdy model w danej wersji może mieć inny wybór cech.
Dodatkowo, oprócz automatycznego przetwarzania wstępnego stosowanego domyślnie do wszystkich modeli, dane do uczenia są przetwarzane za pomocą kilku zaawansowanych transformacji. Transformacje te pomagają zapewnić optymalny format danych dla algorytmów uczenia maszynowego.
W celu zapewnienia jakości model bazowy — nauczony na całym zestawie cech skonfigurowanym dla danej wersji — jest nadal uczony. Pomaga to sprawdzić, czy inteligentna optymalizacja faktycznie poprawia wyniki modelu.
W przypadku większych zestawów danych do uczenia modele są uczone przy użyciu różnych proporcji losowania.Przyspiesza to proces uczenia. Więcej informacji zawiera temat Próbki danych do uczenia.

Próbki danych do uczenia

W przypadku uczenia modeli z dużą ilością danych Qlik Predict używa próbkowania do uczenia modeli w różnych podzestawach (z różnymi proporcjami losowania) oryginalnego zestawu danych. Próbkowanie służy przyspieszeniu procesu uczenia. Na początku uczenia modele są uczone z małą proporcją losowania. W miarę kontynuacji uczenia modele są stopniowo uczone na większych porcjach danych. Ostatecznie modele są uczone na całym zbiorze danych (przy proporcji losowania wynoszącej 100%).

Podczas analizy danych do uczenia modeli modele nauczone przy użyciu mniej niż 100% zestawu danych do uczenia są ukrywane w niektórych widokach.

Przetwarzanie stosowane podczas inteligentnej optymalizacji modeli

Podsumowanie uczenia modelu pokazuje, jak dane do uczenia zostały przetworzone przez inteligentną optymalizację modeli. Poniższe sekcje zawierają więcej szczegółów na temat każdego z elementów widocznych w dzienniku.

Zastosowane przetwarzanie może różnić się w zależności od modelu.

Wykres podsumowujący uczenie dla modelu uczonego za pomocą inteligentnej optymalizacji. — Wykres Podsumowanie uczenia modelu na karcie Modele

Wybór cech

Inteligentna optymalizacja modeli pomaga dopracować modele przez usunięcie cech, które mogą obniżyć wydajność predykcji. Podczas inteligentnej optymalizacji modelu cecha może zostać usunięta z jednego z następujących powodów:

Wyciek danych celu: podejrzewa się, że na tę cechę wpływa wyciek danych celu. Cechy, na które wpływa wyciek danych celu, obejmują informacje o kolumnie celu, którą próbujesz przewidzieć. Na przykład cecha pochodzi bezpośrednio od celu lub zawiera informacje, które nie byłyby znane w momencie przewidywania. Cechy powodujące wyciek danych celu mogą dawać fałszywe poczucie pewności co do wydajności modelu. W rzeczywistych predykcjach powodują one bardzo słabe wyniki modeli.
Niskie znaczenie permutacji: ta cecha nie ma dużego wpływu na predykcje modelu lub nie ma go wcale. Usunięcie tych cech poprawia wydajność modelu poprzez redukcję szumu statystycznego.
Wysoka korelacja: cecha jest silnie skorelowana z jedną lub większą liczbą innych cech w eksperymencie. Cechy, które są zbyt silnie skorelowane, nie nadają się do uczenia modeli.

Na karcie Dane w eksperymencie możesz wyświetlić szczegółowe informacje na temat porzuconych cech dla każdego modelu. Wnioski odnoszą się również do cech, które zostały pominięte poza procesem inteligentnej optymalizacji modeli. Więcej informacji o poszczególnych wnioskach zawiera temat Interpretowanie wniosków z zestawu danych.

Transformacje cech

Inteligentna optymalizacja modeli stosuje szereg technicznych transformacji na poziomie cech. Te transformacje przetwarzają dane do uczenia, dzięki czemu można je efektywniej wykorzystać do stworzenia niezawodnego modelu uczenia maszynowego. Transformacje cech są stosowane automatycznie w razie potrzeby. Podsumowanie uczenia modelu powiadamia o zastosowaniu transformacji cech oraz o tym, których cech to dotyczy.

Transformacja potęgowa

Dane cech często naturalnie zawierają rozkłady z pewnym stopniem asymetrii oraz odchyleniem od rozkładu normalnego. Przed uczeniem modelu pomocne może być zastosowanie pewnego przetwarzania danych w celu normalizacji rozkładów wartości, jeśli wydają się one nadmiernie skośne. Przetwarzanie to pomaga w zmniejszeniu obciążenia oraz identyfikacji wartości odstających.

Dzięki inteligentnej optymalizacji modelu cechy liczbowe przekraczające określony próg skośności są przekształcane tak, aby miały bardziej normalny (lub podobny do normalnego) rozkład przy użyciu transformacji potęgowych. W szczególności wykorzystywana jest transformacja potęgowa Yeo-Johnsona.

Grupowanie cech liczbowych

Niektóre cechy liczbowe mogą zawierać wzorce i rozkłady, które nie są łatwo obsługiwane przez algorytmy uczenia maszynowego. W przypadku inteligentnej optymalizacji modeli problem ten jest częściowo rozwiązywany przez porządkowanie danych określonych cech liczbowych w różnych grupach w zależności od ich zakresów wartości. Grupowania dokonuje się w celu przekształcenia cech w cechy kategorialne.

Po zakończeniu grupowania nowe cechy kategorialne są one-hot encoded oraz używane do uczenia. Więcej informacji na temat kodowania one-hot encoded zawiera temat Kodowanie kategorialne.

Ważenie i próbkowanie na poziomie wiersza

Wykrywanie anomalii oraz ich obsługa

Anomalie to wartości danych występujące poza zakresem, w którym można by się ich spodziewać. Nierzadko zdarza się, że w danych do uczenia występują wartości odstające. Niektóre anomalie mogą być nawet pożądane jako sposób na odzwierciedlenie rzeczywistych możliwości. W Innych przypadkach anomalie mogą zakłócać zdolność do uczenia wiarygodnego modelu.

Dzięki inteligentnej optymalizacji modelu Qlik Predict identyfikuje potencjalne anomalie. Wiersze, w których pojawiają się wartości odstające, są następnie obsługiwane przy użyciu systemu ważenia opartego na algorytmie. Jeśli wartość jest mocno podejrzana o bycie anomalią, system ważenia zmniejsza wpływ danego wiersza w danych do uczenia na model.

Po nauczeniu modelu otrzymasz powiadomienie o procentowej liczbie wierszy z oryginalnego zestawu danych do uczenia, które zostały potraktowane jako anomalie.

Więcej informacji zawiera temat Wykrywanie anomalii oraz ich obsługa.

Równoważenie klas

W zestawie danych do uczenia może istnieć więcej wystąpień określonej wartości (klasy) niż innych. Zjawisko to znane jest jako nierównowaga klas. Gdy w danych występuje nierównowaga klas, wynikowe modele uczą się więcej o klasie większościowej niż o klasie mniejszościowej, co wpływa na dokładność predykcji.

Dzięki inteligentnej optymalizacji modelu Qlik Predict wykonuje automatyczne równoważenie klas dla binarnych modeli klasyfikacji. Nierównowaga klas jest wykrywana przez porównanie rozkładu wartości dla dwóch klas w kolumnie docelowej. W szczególności robi się to, gdy stosunek między dwiema klasami jest następujący:

95% (lub więcej) wierszy zawiera jedną klasę
5% (lub mniej) wierszy zawiera drugą klasę

Podczas równoważenia klas dane do uczenia są nadpróbkowane w celu poprawy rozkładu klas. Proces jest iteracyjny – testuje się różne współczynniki wyjściowe w celu znalezienia optymalnej równowagi dla wydajności modelu.

Nadpróbkowany zestaw danych jest następnie wykorzystywany do uczenia modeli w wersji eksperymentu.

Więcej informacji ogólnych o równoważeniu klas zawiera temat Równoważenie klas.

Wyłączanie inteligentnej optymalizacji

Gdy inteligentna optymalizacja jest wyłączona, optymalizujesz uczenie ręcznie. Ręczna optymalizacja może być pomocna, jeśli potrzebujesz większej kontroli nad procesem uczenia. W szczególności możesz chcieć uruchomić wersję z inteligentną optymalizacją modeli, a następnie wyłączyć to ustawienie, aby wprowadzić niewielki zestaw ręcznych korekt.

Wykonaj następujące czynności:

W eksperymencie kliknij Wyświetl konfigurację.

Otworzy się panel konfiguracji eksperymentu.
Jeżeli uruchomiono już co najmniej jedną wersję eksperymentu, kliknij Nowa wersja.
W panelu rozwiń pozycję Optymalizacja modelu.
Przełącz z inteligentna na Ręczna.

Uwagi

Pracując z inteligentną optymalizacją modelu, należy wziąć pod uwagę następujące kwestie:

Korzystanie z inteligentnej optymalizacji modelu nie gwarantuje, że uczenie da w efekcie modele o wysokiej jakości. Do tworzenia niezawodnych modeli są też niezbędne etapy przygotowania zestawu danych i konfiguracji eksperymentu. Jeśli nie masz dobrze przygotowanego zestawu danych lub w konfiguracji brakuje kluczowych cech, nie ma gwarancji, że Twoje modele będą dobrze działać w zastosowaniach produkcyjnych. Więcej informacji na temat tych etapów:
- Przygotowywanie zestawu danych do uczenia
- Konfigurowanie eksperymentów
Gdy w danej wersji jest włączona inteligentna optymalizacja modelu, każdy model z tej wersji będzie miał osobny zestaw uwzględnionych cech. Z drugiej strony wszystkie modele z wersji nauczonej z ręczną optymalizacją będą miały ten sam zestaw uwzględnionych cech.
Inteligentna optymalizacja modeli wykorzystuje tylko cechy i algorytmy uwzględnione w konfiguracji danej wersji.

Optymalizacja hiperparametrów

Optymalizacja hiperparametrów nie jest dostępna, gdy jest włączona inteligentna optymalizacja modeli. Aby aktywować optymalizację hiperparametrów, należy ustawić Ręczną optymalizację modeli.

Więcej informacji zawiera temat Optymalizacja hiperparametrów.

Przykład

Przykład demonstrujący zalety inteligentnej optymalizacji modeli można znaleźć w temacie Samouczek — Generowanie i wizualizacja danych predykcyjnych.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię