Przeglądanie i ulepszanie wersji modeli
Po zakończeniu pierwszej wersji uczenia modelu przeanalizuj wynikowe wskaźniki modelu i skonfiguruj kolejne wersje eksperymentu, aż uzyskasz potrzebne wyniki.
Po uruchomieniu wersji eksperymentu nastąpi przejście do widoku modelu, w którym możesz przeanalizować wynikowe wskaźniki modelu. W dowolnym momencie możesz przejść do widoku schematu lub danych. Jeśli chcesz wrócić do widoku modelu, kliknij ikonę widoku modelu .
Ukończenie pierwszej wersji uczenia poznasz po tym, że wszystkie wskaźniki zostaną wypełnione w tabeli Wskaźniki modelu, a obok najskuteczniejszego modelu pojawi się ikona trofeum .
Analiza modelu
W widoku modelu widzimy, że najefektywniejszy algorytm ma ikonę trofeum . Oznacza to, że jest to najskuteczniejszy model na podstawie wyniku F1.
Wykonaj następujące czynności:
-
W prawym górnym rogu tabeli kliknij przycisk wyboru kolumny . Tutaj możesz wyświetlić wszystkie dostępne wskaźniki dotyczące naszego problemu i w razie potrzeby je dodać lub usunąć. Wybierz dowolne wskaźniki, które chcesz wyświetlić w tabeli, lub pozostaw wskaźniki domyślne.
-
W tabeli Wskaźniki modelu kliknij listę rozwijaną filtru Algorytm i wybierz algorytm odpowiadający modelowi o najwyższej skuteczności.
-
Włącz Pokaż wskaźniki danych do uczenia.
Możesz teraz zobaczyć wskaźniki z uczenia z walidacją krzyżową i porównać je ze wskaźnikami danych wstrzymania. W przypadku każdej kolumny wskaźników danych wstrzymania istnieje odpowiednia kolumna „train” dla równoważnego wskaźnika z danych do uczenia.
-
Kliknij Wyczyść filtry i ustaw przełącznik Pokaż wskaźniki danych do uczenia ponownie w pozycji wyłączonej.
-
Posortuj modele od najwyższej do najniższej wydajności, klikając nagłówek kolumny F1 . Możesz zdecydować się na wykluczenie algorytmów o niskiej wydajności lub skupić się tylko na najlepszym, aby uzyskać szybsze wyniki w następnej iteracji uczenia. Zajmiemy się tym podczas konfigurowania wersji 3 w dalszej części.
-
Przewiń w dół poniżej tabeli wskaźników, aby zobaczyć wizualizacje dla wybranego modelu.
-
Kliknij lub Wyświetl konfigurację, aby rozwinąć panel Konfiguracja eksperymentu.
-
Kliknij Nowa wersja, aby utworzyć wersję roboczą nowej wersji eksperymentu.
-
Z wykresu Ważność permutacji oraz listy Cechy w panelu Konfiguracja eksperymentu widać, że ta pierwsza iteracja modelu w bardzo dużym stopniu polega na cesze DaysSinceLastService, a wszystkie pozostałe cechy nie mają w porównaniu z nią prawie żadnego znaczenia.
Ta rozbieżność oraz ekstremalnie wysoka wydajność modeli świadczy o tym, że coś jest nie tak. W tym przypadku nie zdefiniowano żadnej logiki podczas gromadzenia danych, aby zatrzymać zliczanie dni od ostatniego zgłoszenia serwisowego w przypadku klientów, którzy anulowali subskrypcję. W rezultacie model nauczył się kojarzyć dużą liczbę dni od ostatniego zgłoszenia serwisowego z wynikiem yes (zrezygnował) w polu Churned.
Jest to przykład wycieku danych, ponieważ w rzeczywistości model miałby dostęp do informacji tylko do czasu sporządzania predykcji, a liczba dni zawarta w tym polu została zebrana po tym punkcie pomiaru. Aby uzyskać więcej informacji na temat wycieku danych, zobacz Wyciek danych.
Musimy usunąć „nieszczelną” cechę DaysSinceLastService z konfiguracji eksperymentu, ponieważ wypacza ona wynikowe modele. Należy zauważyć, że w rzeczywistym przypadku przed utworzeniem modelu należy dokładnie zbadać jakość danych i logikę, aby upewnić się, że wynikowy model będzie prawidłowo uczony.
Zajmiemy się tym podczas konfigurowania wersji 2 w dalszej części.
Konfigurowanie i uruchamianie wersji 2
Ponieważ większość uczenia modelu ulegnie zmianie po rozwiązaniu problemu z wyciekiem danych, przed wprowadzeniem dalszych ulepszeń skonfigurujmy nową wersję.
Wykonaj następujące czynności:
-
Z poprzedniego kroku masz już otwarty panel Konfiguracja eksperymentu do konfigurowania wersji 2.
-
W obszarze Cechy w okienku Konfiguracja eksperymentu wyczyść pole wyboru DaysSinceLastService.
-
Kliknij Uruchom v2.
Konfigurowanie i uruchamianie wersji 3
Po zakończeniu działania drugiej wersji eksperymentu kliknij pole wyboru obok najskuteczniejszego modelu wersji 2 w tabeli wskaźników (oznaczonego ikoną trofeum ). Spowoduje to odświeżenie strony ze wskaźnikami dla tego modelu.
Nad tabelą Wskaźniki modelu kliknij listę rozwijaną filtru Wersja i wybierz 2. Dzięki temu można skoncentrować się wyłącznie na wskaźnikach modelu w wersji 2.
Zobaczysz, że lista ważnych cech znacznie się zmieniła od czasu rozwiązania problemu wycieku danych. Model o najwyższej wydajności może również używać innego algorytmu niż model o najwyższej wydajności w wersji 1.
Wykonaj następujące czynności:
-
Spójrz na wykres Ważność permutacji. Mogą występować cechy, które wpływają na model znacznie mniej niż pozostałe cechy. Nie mają one istotnej wartości w tym przypadku i mogą być postrzegane jako szum statystyczny. Możesz spróbować usunąć część z tych cech, aby zobaczyć, czy poprawi to wyniki modelu.
-
Kliknij lub Wyświetl konfigurację, aby rozwinąć panel Konfiguracja eksperymentu.
-
Kliknij Nowa wersja, aby utworzyć wersję roboczą nowej wersji eksperymentu.
-
W panelu Konfiguracja eksperymentu w obszarze Cechy wyczyść pola wyboru jednej lub większej liczby cech, które mają niewielki lub żaden wpływ na model.
-
Spójrz na tabelę Wskaźniki modelu. Możesz zdecydować się na wykluczenie niektórych algorytmów o niskiej wydajności lub skupić się tylko na najlepszych, aby uzyskać szybsze wyniki w następnej iteracji uczenia.
-
W panelu Konfiguracja eksperymentu w obszarze Algorytmy opcjonalnie wyczyść pola wyboru kilku algorytmów o niskiej wydajności.
-
Kliknij Uruchom v3.
Porównywanie wersji eksperymentu
W tabeli Wskaźniki modelu kliknij opcję Wyczyść filtry.
Po uruchomieniu wersji 3 kliknij pole wyboru obok najskuteczniejszego modelu wersji 3, aby wyświetlić jego wskaźniki.
Kliknij Więcej filtrów modeli, a następnie wybierz filtr Z najlepszymi wskaźnikami. Widoczne są wskaźniki dotyczące najlepszych modeli z każdej iteracji eksperymentu.
Pierwsza wersja uczenia dała najwyższe wyniki, ale wskutek wycieku danych były one znacznie przesadzone i nierealistycznie sugerowały efektywność. W wersji 3 wynik F1 modelu o najwyższej wydajności wzrósł w porównaniu z modelem o najwyższej wydajności w wersji 2.
W warunkach rzeczywistych ważne jest, aby przed wdrożeniem modelu powtórzyć kroki ulepszania tyle razy, ile potrzeba, by mieć pewność, że ma się najlepszy możliwy model dla konkretnego przypadku.
W tym kursie przejdź do następnej sekcji dotyczącej wdrażania modelu.