Inteligentna optymalizacja modelu | Qlik Cloud Pomoc
Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Inteligentna optymalizacja modelu

Inteligentna optymalizacja modelu zapewnia automatyczne udoskonalanie modeli trenowanych w eksperymencie. Dzięki inteligentnej optymalizacji modelu procesy iteracji wyboru cech i stosowania zaawansowanych przekształceń są obsługiwane automatycznie. Przy dobrze przygotowanym treningowym zbiorze danych zawierającym wszystkie istotne cechy można oczekiwać, że inteligentna optymalizacja modelu wytrenuje gotowe do wdrożenia modele w ramach jednej wersji.

Co to jest inteligentna optymalizacja modelu?

Inteligentna optymalizacja modelu automatyzuje wiele aspektów procesu udoskonalania modelu. Dzięki inteligentnej optymalizacji modelu można szybko trenować modele wysokiej jakości bez konieczności ręcznego dostosowywania wyboru cech lub modyfikowania danych wejściowych.

Korzystanie z inteligentnej optymalizacji modelu

Inteligentna optymalizacja modelu jest domyślnie włączona w nowych eksperymentach ML następujących typów:

  • Klasyfikacja binarna

  • Klasyfikacja wieloklasowa

  • Regresja

Informacja

Inteligentna optymalizacja modelu nie ma zastosowania do eksperymentów z szeregami czasowymi.

Inteligentną optymalizację modelu można włączyć lub wyłączyć dla każdej uruchamianej wersji eksperymentu.

Po uruchomieniu wersji eksperymentu z włączoną inteligentną optymalizacją wyniki optymalizacji można wyświetlić w sekcji Podsumowanie treningu modelu. Podsumowanie to jest widoczne na karcie Modele w obszarze Wgląd w modele. Najedź kursorem myszy na podkreślone terminy, aby wyświetlić etykietkę ze szczegółowym opisem.

Sekcja Podsumowanie treningu modelu jest inna dla każdego modelu wytrenowanego w danej wersji eksperymentu.

Jak działa inteligentna optymalizacja modelu

W przypadku inteligentnej optymalizacji modelu:

  • Trenowanych jest więcej modeli niż w przypadku optymalizacji ręcznej. Wybór cech jest obsługiwany na poziomie modelu. Oznacza to, że w przeciwieństwie do optymalizacji ręcznej każdy model w wersji może mieć inny wybór cech.

  • Oprócz automatycznego wstępnego przetwarzania stosowanego domyślnie do wszystkich modeli, dane treningowe są przetwarzane przy użyciu kilku zaawansowanych przekształceń. Przekształcenia te pomagają zapewnić, że dane mają optymalny format dla algorytmów uczenia maszynowego.

  • W celu zapewnienia jakości nadal trenowany jest model bazowy — model wytrenowany na całym zestawie cech skonfigurowanym dla danej wersji. Pomaga to sprawdzić, czy inteligentna optymalizacja rzeczywiście poprawia wyniki modelu.

  • W przypadku większych treningowych zbiorów danych modele są trenowane przy użyciu różnych współczynników próbkowania. Pomaga to przyspieszyć proces treningu. Więcej informacji zawiera sekcja Próbkowanie danych treningowych.

Próbkowanie danych treningowych

Podczas trenowania modeli z użyciem dużej ilości danych Qlik Predict używa próbkowania do trenowania modeli na różnych podzbiorach (współczynnikach próbkowania) oryginalnego zbioru danych. Próbkowanie służy do przyspieszenia procesu treningu. Na początku treningu modele są trenowane na małym współczynniku próbkowania. W miarę postępu treningu modele są stopniowo trenowane na większych częściach danych. Ostatecznie modele są trenowane na całym zbiorze danych (współczynnik próbkowania 100%).

Podczas analizy danych treningowych modelu modele wytrenowane przy użyciu mniej niż 100% treningowego zbioru danych są ukrywane w niektórych widokach.

Przetwarzanie stosowane podczas inteligentnej optymalizacji modelu

Sekcja Podsumowanie treningu modelu pokazuje, jak dane treningowe zostały przetworzone przez inteligentną optymalizację modelu. Poniższe sekcje zawierają więcej szczegółów na temat poszczególnych elementów widocznych w dzienniku.

Zastosowane przetwarzanie może się różnić w zależności od modelu.

Wykres Podsumowanie treningu modelu dla modelu, wyświetlany na karcie Modele

Wykres podsumowania treningu dla modelu wytrenowanego przy użyciu inteligentnej optymalizacji. Cechy z danych treningowych zostały automatycznie wykluczone z modelu z powodów takich jak wyciek celu i wysoka korelacja

Wybór cech

Inteligentna optymalizacja modelu pomaga udoskonalić modele poprzez odrzucanie cech, które mogą obniżyć wydajność predykcyjną. Podczas inteligentnej optymalizacji modelu cecha może zostać odrzucona z dowolnego z następujących powodów:

  • Wyciek celu: Istnieje podejrzenie, że na cechę wpływa wyciek celu. Cechy, na które wpływa wyciek celu, zawierają informacje o kolumnie docelowej, którą próbujesz przewidzieć. Na przykład cecha pochodzi bezpośrednio z celu lub zawiera informacje, które nie byłyby znane w momencie prognozowania. Cechy powodujące wyciek celu mogą dawać fałszywe poczucie pewności co do wydajności modelu. W rzeczywistych prognozach powodują one, że model działa bardzo słabo.

  • Niska ważność permutacji: Cecha ma niewielki wpływ na prognozy modelu lub nie ma go wcale. Usunięcie tych cech poprawia wydajność modelu poprzez redukcję szumu statystycznego.

  • Silnie skorelowane: Cecha jest silnie skorelowana z jedną lub kilkoma innymi cechami w eksperymencie. Cechy, które są zbyt silnie skorelowane, nie nadają się do użytku w trenowaniu modeli.

Na karcie Dane w eksperymencie można wyświetlić informacje o odrzuconych cechach dla każdego modelu. Sekcja Wgląd odnosi się również do cech, które zostały odrzucone poza procesem inteligentnej optymalizacji modelu. Więcej informacji na temat poszczególnych analiz zawiera sekcja Interpretowanie wglądów w zestaw danych.

Przekształcenia cech

Inteligentna optymalizacja modelu stosuje szereg technicznych przekształceń na poziomie cech. Przekształcenia te przetwarzają dane treningowe, dzięki czemu można je efektywniej wykorzystać do stworzenia niezawodnego modelu uczenia maszynowego. Przekształcenia cech są stosowane automatycznie w razie potrzeby. W sekcji Podsumowanie treningu modelu pojawia się powiadomienie o zastosowaniu przekształceń cech oraz o tym, których cech one dotyczą.

Przekształcenie potęgowe

Dane cech często naturalnie zawierają rozkłady z pewnym stopniem asymetrii i odchylenia od rozkładu normalnego. Przed wytrenowaniem modelu pomocne może być poddanie danych pewnemu przetwarzaniu w celu znormalizowania rozkładów wartości, jeśli wydają się one nadmiernie skośne. Przetwarzanie to pomaga w redukcji obciążenia i identyfikacji wartości odstających.

Dzięki inteligentnej optymalizacji modelu cechy numeryczne przekraczające określony próg skośności są przekształcane w celu uzyskania rozkładu bardziej zbliżonego do normalnego przy użyciu przekształceń potęgowych. W szczególności stosowane jest przekształcenie potęgowe Yeo-Johnsona.

Grupowanie cech numerycznych

Niektóre cechy numeryczne mogą zawierać wzorce i rozkłady, które nie są łatwo obsługiwane przez algorytmy uczenia maszynowego. W przypadku inteligentnej optymalizacji modelu problem ten jest częściowo rozwiązywany poprzez organizowanie danych określonych cech numerycznych w różne grupy (koszyki) w zależności od ich zakresów wartości. Grupowanie jest wykonywane w celu przekształcenia cech w cechy kategoryczne.

Po zakończeniu grupowania nowe cechy kategoryczne są kodowane metodą one-hot encoded i używane w treningu. Więcej informacji na temat kodowania one-hot encoded zawiera sekcja Kodowanie kategorialne.

Ważenie i próbkowanie na poziomie wierszy

Wykrywanie i obsługa anomalii

Anomalie to wartości danych, które wykraczają poza zakres, w którym można by racjonalnie oczekiwać ich wystąpienia. Nierzadko w danych treningowych pojawiają się pewne wartości odstające. Niektóre anomalie mogą być nawet pożądane jako sposób na odzwierciedlenie rzeczywistych możliwości. W innych przypadkach anomalie mogą zakłócać możliwość wytrenowania niezawodnego modelu.

Dzięki inteligentnej optymalizacji modelu Qlik Predict identyfikuje potencjalne anomalie. Wiersze, w których pojawiają się wartości odstające, są następnie obsługiwane za pomocą systemu ważenia opartego na algorytmach. Jeśli istnieje silne podejrzenie, że wartość jest anomalią, system ważenia zmniejsza wpływ odpowiedniego wiersza w danych treningowych na model.

Po wytrenowaniu modelu użytkownik otrzymuje powiadomienie o punkcie procentowym wierszy z oryginalnego treningowego zbioru danych, które zostały obsłużone jako dane anomalne.

Więcej informacji zawiera sekcja Wykrywanie i obsługa anomalii.

Równoważenie klas

W treningowym zbiorze danych możliwe jest, że niektóre wartości (klasy) występują częściej niż inne. Zjawisko to znane jest jako niezrównoważenie klas. Gdy w danych występuje niezrównoważenie klas, powstałe modele uczą się więcej o klasie większościowej niż o klasie mniejszościowej, co wpływa na dokładność prognoz.

Dzięki inteligentnej optymalizacji modelu Qlik Predict wykonuje automatyczne równoważenie klas dla modeli klasyfikacji binarnej. Niezrównoważenie klas jest wykrywane poprzez porównanie rozkładu wartości dla dwóch klas w kolumnie docelowej. W szczególności jest ono wykonywane, gdy stosunek między dwiema klasami wynosi:

  • 95% (lub więcej) wierszy zawiera jedną klasę

  • 5% (lub mniej) wierszy zawiera drugą klasę

Podczas równoważenia klas dane treningowe są nadpróbkowane (oversampled) w celu poprawy rozkładu klas. Proces ten ma charakter iteracyjny — testowanych jest kilka różnych współczynników wyjściowych w celu znalezienia optymalnej równowagi dla wydajności modelu.

Po nadpróbkowaniu nadpróbkowany zbiór danych jest następnie używany do trenowania modeli w wersji eksperymentu.

Więcej ogólnych informacji na temat równoważenia klas zawiera sekcja Równoważenie klas.

Wyłączanie inteligentnej optymalizacji

Po wyłączeniu inteligentnej optymalizacji optymalizacja treningu odbywa się ręcznie. Optymalizacja ręczna może być pomocna, jeśli potrzebujesz większej kontroli nad procesem treningu. W szczególności możesz chcieć uruchomić wersję z inteligentną optymalizacją modelu, a następnie wyłączyć to ustawienie, jeśli musisz wprowadzić niewielki zestaw ręcznych dostosowań.

InformacjaOptymalizacja ręczna nie jest dostępna w eksperymentach szeregów czasowych.
  1. W eksperymencie kliknij ikonę Schemat Wyświetl konfigurację.

    Otworzy się panel konfiguracji eksperymentu.

  2. Jeśli uruchomiono już co najmniej jedną wersję eksperymentu, kliknij przycisk Utwórz nową wersję.

  3. W panelu rozwiń sekcję Optymalizacja modelu.

  4. Przełącz z opcji Inteligentna na Ręczna.

Uwagi

Podczas pracy z inteligentną optymalizacją modelu należy wziąć pod uwagę następujące kwestie:

  • Korzystanie z inteligentnej optymalizacji modelu nie gwarantuje, że trening pozwoli uzyskać modele wysokiej jakości. Etapy przygotowania zbioru danych i konfiguracji eksperymentu są również kluczowe dla stworzenia niezawodnych modeli. Jeśli nie dysponujesz dobrze przygotowanym zbiorem danych lub jeśli w konfiguracji brakuje kluczowych cech, nie ma gwarancji, że modele będą działać dobrze w produkcyjnych przypadkach użycia. Więcej informacji na temat tych etapów można znaleźć w sekcjach:

  • Gdy dla danej wersji włączona jest inteligentna optymalizacja modelu, każdy model z tej wersji będzie miał oddzielny zestaw uwzględnionych cech. Z drugiej strony wszystkie modele z wersji wytrenowanej przy użyciu optymalizacji ręcznej będą miały ten sam zestaw uwzględnionych cech.

  • Inteligentna optymalizacja modelu wykorzystuje tylko te cechy i algorytmy, które zostały uwzględnione w konfiguracji dla danej wersji.

Optymalizacja hiperparametrów

Optymalizacja hiperparametrów nie jest dostępna, gdy włączona jest inteligentna optymalizacja modelu. Aby aktywować optymalizację hiperparametrów, należy ustawić optymalizację modelu na Ręczna.

Więcej informacji zawiera sekcja Optymalizacja hiperparametrów.

Przykład

Przykład demonstrujący korzyści płynące z inteligentnej optymalizacji modelu zawiera sekcja Samouczek — Generowanie i wizualizacja danych predykcyjnych.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!