Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Dane wstrzymania i walidacja krzyżowa

Jednym z największych wyzwań w analityce predykcyjnej jest uzyskanie wiedzy o tym, jak wyuczony model będzie działać na nieznanych mu dotychczas danych. Innymi słowy, jak dobrze model nauczył się prawdziwych wzorców, zamiast po prostu zapamiętywać dane do uczenia. Dane wstrzymania i walidacja krzyżowa to skuteczne techniki, dzięki którym można się upewnić, czy model nie tylko zapamiętuje, ale też faktycznie uczy się uogólnionych wzorców.

Testowanie modeli pod kątem zapamiętywania vs. uogólniania

Pytanie, jak dobrze model będzie działać w rzeczywistości, jest pytaniem o to, czy model zapamiętuje, czy uogólnia. Zapamiętywanie to zdolność do doskonałego pamiętania zdarzeń z przeszłości. Model, który zapamiętuje, może mieć wysokie wyniki podczas wstępnego uczenia, ale dokładność predykcyjna znacznie spadnie, gdy zostanie zastosowany do nowych danych. Zamiast tego potrzebujemy modelu, który uogólnia. Uogólnianie to umiejętność uczenia się i stosowania ogólnych wzorców. Ucząc się prawdziwych, szerszych wzorców z danych do uczenia, uogólniony model będzie w stanie dokonywać predykcji o tej samej jakości na nowych danych, z którymi wcześniej nie miał do czynienia.

Automatyczne wstrzymanie danych

Dane wstrzymania to losowo wybrane dane, które są „ukrywane” przed modelem podczas jego uczenia, a następnie wykorzystywane do jego oceny. Stosowanie danych wstrzymania symuluje sposób, w jaki model będzie działał podczas przyszłych predykcji, generując wskaźniki dokładności w odniesieniu do danych, które nie były używane do uczenia. To tak, jakbyśmy zbudowali model, wdrożyli go i monitorowali jego predykcje w odniesieniu do tego, co faktycznie się zdarzyło, bez konieczności czekania na obserwację tych predykcji.

Zestaw danych dzieli się na dane do uczenia i dane wstrzymania

Stosunek danych do uczenia do danych wstrzymania.

Walidacja krzyżowa

Walidacja krzyżowa polega na pobraniu zestawu danych i losowym podzieleniu go na pewną liczbę równych segmentów, zwanych podzbiorami. Algorytm uczenia maszynowego jest uczony na wszystkich podzbiorach z wyjątkiem jednego. Walidacja krzyżowa następnie testuje każdy podzbiór na modelu nauczonym na wszystkich pozostałych podzbiorach. Oznacza to, że każdy wyuczony model jest testowany na segmencie danych, z którym nigdy wcześniej nie miał do czynienia. Proces jest powtarzany z ukrywaniem innego podzbioru podczas uczenia, a następnie testowaniem, aż wszystkie podzbiory zostaną użyte dokładnie raz jako test i wykorzystane do uczenia w co drugiej iteracji.

Dane do uczenia są dzielone na pięć podzbiorów. Podczas każdej iteracji do wykorzystania jako dane testowe izolowany jest inny podzbiór.

Dane do uczenia podzielone na pięć części i używane pięć razy do iteracji.

Wynikiem walidacji krzyżowej jest zestaw wskaźników testowych, które dają rozsądną prognozę tego, jak dokładnie wyuczony model będzie w stanie przewidywać dane, z którymi wcześniej nie miał do czynienia.

Jak działa automatyczne wstrzymywanie danych i walidacja krzyżowa

W celu symulacji wydajności modelu AutoML wykorzystuje pięciokrotną walidację krzyżową podczas jego uczenia. Model jest następnie testowany przy użyciu osobnych danych, wstrzymanych spośród danych do uczenia. Generuje to wskaźniki punktacji, które pozwalają ocenić i porównać skuteczność różnych algorytmów.

  1. Przed rozpoczęciem uczenia eksperymentu wszystkie dane w zestawie danych, które mają wartość celu inną niż null, są losowo tasowane. Jako dane wstrzymania wyodrębnia się 20% z zestawu danych. Pozostałe 80% zestawu danych wykorzystuje się do uczenia modelu z walidacją krzyżową.

  2. W celu przygotowania do walidacji krzyżowej zestaw danych jest losowo dzielony na pięć części — podzbiorów. Model jest następnie uczony pięć razy, i za każdym razem „ukrywa się” inną piątą część danych, aby sprawdzić skuteczność modelu. Podczas walidacji krzyżowej generowane są wskaźniki uczenia i stanowią one średnią z obliczonych wartości.

  3. Po szkoleniu model jest stosowany do danych wstrzymania. Ponieważ model nie poznaje danych wstrzymania podczas uczenia (w przeciwieństwie do danych używanych do walidacji krzyżowej), dlatego nadają się idealnie do walidacji skuteczności modelu. Podczas tej końcowej oceny modelu są generowane wskaźniki danych wstrzymania.

Aby uzyskać więcej informacji na temat wskaźników używanych do analizowania wydajności modelu, zobacz Sprawdzanie modeli.

Podczas pięciokrotnej walidacji krzyżowej w celu wygenerowania modelu używane są dane do uczenia.Po zakończeniu uczenia model jest oceniany przy użyciu danych wstrzymania.

Dane do uczenia są używane do walidacji krzyżowej, a dane wstrzymania do ostatecznej oceny modelu.

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!