Przeglądanie i ulepszanie modeli
Po zakończeniu pierwszej wersji uczenia modelu przeanalizuj wynikowe wskaźniki modelu i skonfiguruj kolejne wersje eksperymentu, aż uzyskasz potrzebne wyniki.
Po uruchomieniu wersji eksperymentu nastąpi przejście do karty Modele, na której możesz przeanalizować wynikowe wskaźniki modelu. Dostęp do Widoku schematu i Widoku danych można uzyskać po powrocie do karty Dane. Bardziej szczegółową analizę można przeprowadzić na kartach Porównaj i Analizuj.
Ukończenie pierwszej wersji uczenia poznasz po tym, że wszystkie wskaźniki zostaną wypełnione w tabeli Wskaźniki modelu, a obok najskuteczniejszego modelu pojawi się ikona trofeum .
Analiza modeli z wersji 1
Wróć do karty Modele. W tabeli Wskaźniki modelu model z najlepszymi wynikami jest oznaczany ikoną trofeum . Oznacza to, że jest to najskuteczniejszy model na podstawie wyniku F1.
Wróć do karty Modele. W tabeli Wskaźniki modelu model z najlepszymi wynikami jest oznaczany ikoną trofeum . Oznacza to, że jest to najskuteczniejszy model na podstawie wyniku F1.
Posortuj modele od najwyższej do najniższej wydajności, klikając nagłówek kolumny F1 . Możesz zdecydować się na wykluczenie algorytmów o niskiej wydajności lub skupić się tylko na najlepszym, aby uzyskać szybsze wyniki w następnej iteracji uczenia. Zajmiemy się tym podczas konfigurowania wersji 3 w dalszej części.
Identyfikacja wycieku danych
Przyjrzyj się wykresom Wnioski dotyczące modelu w prawej części strony. Wykresy te wskazują znaczenie względne każdej cechy, a także wydajność modelu.
Z wykresu Ważność permutacji oraz listy Cechy w panelu Konfiguracja eksperymentu widać, że ta pierwsza iteracja modelu w bardzo dużym stopniu polega na cesze DaysSinceLastService, a wszystkie pozostałe cechy nie mają w porównaniu z nią prawie żadnego znaczenia.
Ta rozbieżność oraz ekstremalnie wysokie wyniki wydajności F1 modeli świadczą o tym, że coś jest nie tak. W tym przypadku nie zdefiniowano żadnej logiki podczas gromadzenia danych, aby zatrzymać zliczanie dni od ostatniego zgłoszenia serwisowego w przypadku klientów, którzy anulowali subskrypcję. W rezultacie model nauczył się kojarzyć dużą liczbę dni od ostatniego zgłoszenia serwisowego (występującą w przypadku klientów, którzy zrezygnowali wiele lat temu) z wartością yes w polu Churned.
Jest to przykład wycieku danych, ponieważ w rzeczywistości model miałby dostęp do informacji tylko do czasu sporządzania predykcji, a liczba dni zawarta w tym polu została zebrana po tym punkcie pomiaru. Problem ten nazywa się wyciekiem danych celu i jest formą wycieku danych. Aby uzyskać więcej informacji na temat wycieku danych, zobacz Wyciek danych.
Musimy usunąć „nieszczelną” cechę DaysSinceLastService z konfiguracji eksperymentu, ponieważ wypacza ona wynikowe modele. Należy zauważyć, że w rzeczywistym przypadku przed utworzeniem modelu należy dokładnie zbadać jakość danych i logikę, aby upewnić się, że wynikowy model będzie prawidłowo uczony.
Zajmiemy się tym podczas konfigurowania wersji 2.
Konfigurowanie i uruchamianie wersji 2
Skonfigurujmy nową wersję, aby zaradzić wyciekowi danych.
Wykonaj następujące czynności:
Kliknij Wyświetl konfigurację, aby rozwinąć panel konfiguracji eksperymentu.
Kliknij Nowa wersja.
W panelu w obszarze Cechy usuń zaznaczenie pola wyboru DaysSinceLastService.
Kliknij Uruchom v2.
Analiza modeli z wersji 2
Po zakończeniu działania drugiej wersji eksperymentu kliknij pole wyboru obok najskuteczniejszego modelu wersji 2 w tabeli Wskaźniki modelu (oznaczonego ikoną trofeum ). Spowoduje to odświeżenie strony ze wskaźnikami dla tego modelu.
Porównanie wskaźników uczenia i wstrzymania
Możesz zobaczyć dodatkowe wskaźniki i porównać wskaźniki z uczenia z walidacją krzyżową ze wskaźnikami danych wstrzymania.
Wykonaj następujące czynności:
W eksperymencie przejdź na kartę Porównaj.
Zostanie otwarta osadzona analiza. Możesz skorzystać z interaktywnego interfejsu, aby bardziej zagłębić się w analizę porównawczą modelu i odkryć nowe wnioski.
W panelu Arkusze po prawej stronie analizy przejdź do arkusza Details.
Spójrz na tabelę Model Metrics. Pokazuje wskaźniki oceny modelu, takie jak F1, a także inne informacje.
W wersji 1 na uczenie miał wpływ wyciek danych celu, dlatego skupmy się tylko na wersji 2. Użyj panelu filtrowania Version po prawej stronie arkusza, aby wybrać wartość 1.
W sekcji Columns to show użyj panelu filtrowania, aby dodawać i usuwać kolumny w tabeli.
Na liście rozwijanej dodaj dodatkowe wskaźniki. Wyniki treningu dla każdego wskaźnika są wyświetlane jako wartości kończące się na Train. Dodaj do tabeli trochę wskaźników uczenia.
Możesz teraz zobaczyć wskaźniki F1 z uczenia z walidacją krzyżową i porównać je ze wskaźnikami danych wstrzymania.
Identyfikacja cech o niskiej ważności
Następnie powinniśmy sprawdzić, czy istnieją jakieś cechy o niskiej ważności permutacji. Aby zwiększyć dokładność predykcji, należy usunąć cechy, które mają niewielki wpływ na model lub nie mają go wcale.
Wykonaj następujące czynności:
W eksperymencie wróć do karty Modele.
Spójrz na wykres Ważność permutacji. Cztery dolne cechy — StartMonth, DeviceType, CustomerTenure i Territory — wpływają na model znacznie mniej niż pozostałe cechy. Nie mają one istotnej wartości w tym przypadku i mogą być postrzegane jako szum statystyczny.
W wersji 3 możemy usunąć te cechy, aby zobaczyć, czy poprawi to wyniki modelu.
Identyfikacja algorytmów o niskiej wydajności
Możemy również zajrzeć do tabeli Wskaźniki modelu, aby sprawdzić, czy możemy usunąć jakieś algorytmy z uczenia v3. Podczas udoskonalania modeli można usunąć algorytmy o niskiej wydajności, aby uczenie przebiegało szybciej w kolejnych iteracjach.
W eksperymencie wróć do karty Modele.
W tabeli Wskaźniki modelu użyj filtru Wersja, aby wyświetlić tylko modele z wersji 2.
Spójrz na wyniki F1 dla każdego algorytmu. Jeśli niektóre algorytmy tworzą modele, które uzyskują znacznie niższe wyniki niż inne, możemy je usunąć z następnej wersji.
Konfigurowanie i uruchamianie wersji 3
Wykonaj następujące czynności:
Kliknij Wyświetl konfigurację, aby rozwinąć panel konfiguracji eksperymentu.
Kliknij Nowa wersja.
Na panelu w obszarze Cechy wyczyść pola wyboru StartMonth, DeviceType, CustomerTenure i Territory.
Opcjonalnie rozwiń Algorytmy i wyczyść pola wyboru Naiwny gaussowski klasyfikator Bayesa i Regresja logistyczna.
Kliknij Uruchom v3.
Analiza modeli z wersji 3
Po uruchomieniu wersji 3 można wyczyścić filtr Wersja z tabeli Wskaźniki modelu. Wybierz najskuteczniejszy model z wersji 3.
Zróbmy szybkie porównanie modeli ze wszystkich wersji.
Pierwsza wersja uczenia dała najwyższe wyniki, ale wskutek wycieku danych były one znacznie przesadzone i nierealistycznie sugerowały efektywność. W wersji 3 wynik F1 modelu o najwyższej wydajności wzrósł w porównaniu z modelem o najwyższej wydajności w wersji 2.
Jak wyjaśniono wcześniej, możesz przejść do karty Porównaj, aby uzyskać dokładniejsze porównanie wyników modelu.
Koncentracja na konkretnym modelu
W dowolnym momencie analizy modelu można przeprowadzić szczegółową analizę pojedynczego modelu. Interaktywne funkcje Qlik Sense umożliwiają przeglądanie dokładności predykcji, ważności cech i rozkładu cech.
Wykonaj następujące czynności:
Po wybraniu najskuteczniejszego modelu v3 kliknij kartę Analizuj.
Zostanie otwarta osadzona analiza.
Za pomocą arkusza Model Overview można analizować dokładność predykcji modelu. Analizę ulepsza się przy użyciu wyborów. Kliknij cechę lub przewidywaną wartość, aby dokonać wyboru. Dane we wbudowanej analizie dostosowują się w celu filtrowania danych. Można drążyć określone wartości i zakresy cech, aby zobaczyć, jak zmienia się wpływ cech i dokładność predykcji.
Po przełączeniu na inne arkusze można przeglądać wizualizacje dotyczące dokładności predykcji, rozkładu cech i rozkładu wpływu (SHAP). Te treści analityczne mogą pomóc w wykonywaniu następujących zadań:
Odkrywanie kluczowych czynników wpływających na trendy w danych.
Identyfikacja, jak określone cechy i kohorty wpływają na przewidywane wartości i dokładność predykcji.
Identyfikacja wartości odstających w danych.
Następne kroki
W warunkach rzeczywistych ważne jest, aby przed wdrożeniem modelu powtórzyć kroki ulepszania tyle razy, ile potrzeba, by mieć pewność, że ma się najlepszy możliwy model dla konkretnego przypadku.
W tym kursie przejdź do następnej sekcji dotyczącej wdrażania modelu.