Przeglądanie i ulepszanie modeli
Po zakończeniu pierwszej wersji uczenia modelu przeanalizuj wynikowe wskaźniki modelu i skonfiguruj kolejne wersje eksperymentu, aż uzyskasz potrzebne wyniki.
Po uruchomieniu wersji eksperymentu nastąpi przejście do karty Modele, na której możesz przeanalizować wynikowe wskaźniki modelu. Dostęp do Widoku schematu i Widoku danych można uzyskać po powrocie do karty Dane. Bardziej szczegółową analizę można przeprowadzić na kartach Porównaj i Analizuj.
Ukończenie pierwszej wersji uczenia poznasz po tym, że wszystkie wskaźniki zostaną wypełnione w tabeli Wskaźniki modelu, a obok najskuteczniejszego modelu pojawi się ikona trofeum .
Analiza modeli z wersji 1
Wróć do karty Modele. W tabeli Wskaźniki modelu model z najlepszymi wynikami jest oznaczany ikoną trofeum . Oznacza to, że jest to najskuteczniejszy model na podstawie wyniku F1.
Tabela Wskaźniki modelu przedstawiająca najskuteczniejsze modele dla wersji 1

Wróć do karty Modele. W tabeli Wskaźniki modelu model z najlepszymi wynikami jest oznaczany ikoną trofeum . Oznacza to, że jest to najskuteczniejszy model na podstawie wyniku F1.
Posortuj modele od najwyższej do najniższej wydajności, klikając nagłówek kolumny F1 . Możesz zdecydować się na wykluczenie algorytmów o niskiej wydajności lub skupić się tylko na najlepszym, aby uzyskać szybsze wyniki w następnej iteracji uczenia. Zajmiemy się tym podczas konfigurowania wersji 3 w dalszej części.
Identyfikacja wycieku danych
Przyjrzyj się wykresom Wnioski dotyczące modelu w prawej części strony. Wykresy te wskazują znaczenie względne każdej cechy, a także wydajność modelu.
Z wykresu Ważność permutacji oraz listy Cechy w panelu Konfiguracja eksperymentu widać, że ta pierwsza iteracja modelu w bardzo dużym stopniu polega na cesze DaysSinceLastService, a wszystkie pozostałe cechy nie mają w porównaniu z nią prawie żadnego znaczenia.
Wykres Ważność permutacji na karcie Modele, pokazujący wyciek danych

Ta rozbieżność oraz ekstremalnie wysokie wyniki wydajności F1 modeli świadczą o tym, że coś jest nie tak. W tym przypadku nie zdefiniowano żadnej logiki podczas gromadzenia danych, aby zatrzymać zliczanie dni od ostatniego zgłoszenia serwisowego w przypadku klientów, którzy anulowali subskrypcję. W rezultacie model nauczył się kojarzyć dużą liczbę dni od ostatniego zgłoszenia serwisowego (występującą w przypadku klientów, którzy zrezygnowali wiele lat temu) z wartością yes w polu Churned.
Jest to przykład wycieku danych, ponieważ w rzeczywistości model miałby dostęp do informacji tylko do czasu sporządzania predykcji, a liczba dni zawarta w tym polu została zebrana po tym punkcie pomiaru. Problem ten nazywa się wyciekiem danych celu i jest formą wycieku danych. Aby uzyskać więcej informacji na temat wycieku danych, zobacz Wyciek danych.
Musimy usunąć „nieszczelną” cechę DaysSinceLastService z konfiguracji eksperymentu, ponieważ wypacza ona wynikowe modele. Należy zauważyć, że w rzeczywistym przypadku przed utworzeniem modelu należy dokładnie zbadać jakość danych i logikę, aby upewnić się, że wynikowy model będzie prawidłowo uczony.
Zajmiemy się tym podczas konfigurowania wersji 2.
Konfigurowanie i uruchamianie wersji 2
Skonfigurujmy nową wersję, aby zaradzić wyciekowi danych.
Wykonaj następujące czynności:
-
Kliknij Wyświetl konfigurację, aby rozwinąć panel konfiguracji eksperymentu.
-
Kliknij Nowa wersja.
-
W panelu w obszarze Cechy usuń zaznaczenie pola wyboru DaysSinceLastService.
-
Kliknij Uruchom v2.
Usuwanie DaysSinceLastService dla wersji 2

Analiza modeli z wersji 2
Po zakończeniu działania drugiej wersji eksperymentu kliknij pole wyboru obok najskuteczniejszego modelu wersji 2 w tabeli Wskaźniki modelu (oznaczonego ikoną trofeum ). Spowoduje to odświeżenie strony ze wskaźnikami dla tego modelu.
Porównanie wskaźników uczenia i wstrzymania
Możesz zobaczyć dodatkowe wskaźniki i porównać wskaźniki z uczenia z walidacją krzyżową ze wskaźnikami danych wstrzymania.
Wykonaj następujące czynności:
-
W eksperymencie przejdź na kartę Porównaj.
Zostanie otwarta osadzona analiza. Możesz skorzystać z interaktywnego interfejsu, aby bardziej zagłębić się w analizę porównawczą modelu i odkryć nowe wnioski.
-
W panelu Arkusze po prawej stronie analizy przejdź do arkusza Details.
-
Spójrz na tabelę Model Metrics. Pokazuje wskaźniki oceny modelu, takie jak F1, a także inne informacje.
-
W wersji 1 na uczenie miał wpływ wyciek danych celu, dlatego skupmy się tylko na wersji 2. Użyj panelu filtrowania Version po prawej stronie arkusza, aby wybrać wartość 1.
-
W sekcji Columns to show użyj panelu filtrowania, aby dodawać i usuwać kolumny w tabeli.
-
Na liście rozwijanej dodaj dodatkowe wskaźniki. Wyniki treningu dla każdego wskaźnika są wyświetlane jako wartości kończące się na Train. Dodaj do tabeli trochę wskaźników uczenia.
Możesz teraz zobaczyć wskaźniki F1 z uczenia z walidacją krzyżową i porównać je ze wskaźnikami danych wstrzymania.
Dodawanie i przeglądanie wyników danych do uczenia w celu porównania z wynikami danych wstrzymania

Identyfikacja cech o niskiej ważności
Następnie powinniśmy sprawdzić, czy istnieją jakieś cechy o niskiej ważności permutacji. Aby zwiększyć dokładność predykcji, należy usunąć cechy, które mają niewielki wpływ na model lub nie mają go wcale.
Wykonaj następujące czynności:
-
W eksperymencie wróć do karty Modele.
-
Spójrz na wykres Ważność permutacji. Cztery dolne cechy — StartMonth, DeviceType, CustomerTenure i Territory — wpływają na model znacznie mniej niż pozostałe cechy. Nie mają one istotnej wartości w tym przypadku i mogą być postrzegane jako szum statystyczny.
W wersji 3 możemy usunąć te cechy, aby zobaczyć, czy poprawi to wyniki modelu.
Karta Modele z wybranym najskuteczniejszym modelem v2. Wykres Ważność permutacji pokazuje, że istnieją cechy mające niewielki wpływ na model lub nie mają go wcale.

Identyfikacja algorytmów o niskiej wydajności
Możemy również zajrzeć do tabeli Wskaźniki modelu, aby sprawdzić, czy możemy usunąć jakieś algorytmy z uczenia v3. Podczas udoskonalania modeli można usunąć algorytmy o niskiej wydajności, aby uczenie przebiegało szybciej w kolejnych iteracjach.
-
W eksperymencie wróć do karty Modele.
-
W tabeli Wskaźniki modelu użyj filtru Wersja, aby wyświetlić tylko modele z wersji 2.
-
Spójrz na wyniki F1 dla każdego algorytmu. Jeśli niektóre algorytmy tworzą modele, które uzyskują znacznie niższe wyniki niż inne, możemy je usunąć z następnej wersji.
Konfigurowanie i uruchamianie wersji 3
Wykonaj następujące czynności:
-
Kliknij Wyświetl konfigurację, aby rozwinąć panel konfiguracji eksperymentu.
-
Kliknij Nowa wersja.
-
Na panelu w obszarze Cechy wyczyść pola wyboru StartMonth, DeviceType, CustomerTenure i Territory.
-
Opcjonalnie rozwiń Algorytmy i wyczyść pola wyboru Naiwny gaussowski klasyfikator Bayesa i Regresja logistyczna.
-
Kliknij Uruchom v3.
Analiza modeli z wersji 3
Po uruchomieniu wersji 3 można wyczyścić filtr Wersja z tabeli Wskaźniki modelu. Wybierz najskuteczniejszy model z wersji 3.
Zróbmy szybkie porównanie modeli ze wszystkich wersji.
Pierwsza wersja uczenia dała najwyższe wyniki, ale wskutek wycieku danych były one znacznie przesadzone i nierealistycznie sugerowały efektywność. W wersji 3 wynik F1 modelu o najwyższej wydajności wzrósł w porównaniu z modelem o najwyższej wydajności w wersji 2.
Tabela Wskaźniki modelu pokazująca posortowane wyniki F1 dla modeli we wszystkich trzech wersjach. Wynik F1 poprawił się w wersji 3 po usunięciu cech o niskim znaczeniu.

Jak wyjaśniono wcześniej, możesz przejść do karty Porównaj, aby uzyskać dokładniejsze porównanie wyników modelu.
Koncentracja na konkretnym modelu
W dowolnym momencie analizy modelu można przeprowadzić szczegółową analizę pojedynczego modelu. Interaktywne funkcje Qlik Sense umożliwiają przeglądanie dokładności predykcji, ważności cech i rozkładu cech.
Wykonaj następujące czynności:
-
Po wybraniu najskuteczniejszego modelu v3 kliknij kartę Analizuj.
Zostanie otwarta osadzona analiza.
-
Za pomocą arkusza Model Overview można analizować dokładność predykcji modelu. Analizę ulepsza się przy użyciu wyborów. Kliknij cechę lub przewidywaną wartość, aby dokonać wyboru. Dane we wbudowanej analizie dostosowują się w celu filtrowania danych. Można drążyć określone wartości i zakresy cech, aby zobaczyć, jak zmienia się wpływ cech i dokładność predykcji.
-
Po przełączeniu na inne arkusze można przeglądać wizualizacje dotyczące dokładności predykcji, rozkładu cech i rozkładu wpływu (SHAP). Te treści analityczne mogą pomóc w wykonywaniu następujących zadań:
-
Odkrywanie kluczowych czynników wpływających na trendy w danych.
-
Identyfikacja, jak określone cechy i kohorty wpływają na przewidywane wartości i dokładność predykcji.
-
Identyfikacja wartości odstających w danych.
-
Karta Analizuj w eksperymencie uczenia maszynowego

Następne kroki
W warunkach rzeczywistych ważne jest, aby przed wdrożeniem modelu powtórzyć kroki ulepszania tyle razy, ile potrzeba, by mieć pewność, że ma się najlepszy możliwy model dla konkretnego przypadku.
W tym kursie przejdź do następnej sekcji dotyczącej wdrażania modelu.