Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Przeglądanie i ulepszanie modeli

Po zakończeniu pierwszej wersji uczenia modelu przeanalizuj wynikowe wskaźniki modelu i skonfiguruj kolejne wersje eksperymentu, aż uzyskasz potrzebne wyniki.

Po uruchomieniu wersji eksperymentu nastąpi przejście do karty Modele, na której możesz przeanalizować wynikowe wskaźniki modelu. Dostęp do Widoku schematu i Widoku danych można uzyskać po powrocie do karty Dane. Bardziej szczegółową analizę można przeprowadzić na kartach Porównaj i Analizuj.

Ukończenie pierwszej wersji uczenia poznasz po tym, że wszystkie wskaźniki zostaną wypełnione w tabeli Wskaźniki modelu, a obok najskuteczniejszego modelu pojawi się ikona trofeum Trofeum.

InformacjaAutoML nieustannie doskonali swoje procesy uczenia modeli. Dlatego po wykonaniu tych ćwiczeń możesz zauważyć, że wskaźniki modelu i inne szczegóły pokazane na tej stronie nie są identyczne z Twoimi.

Analiza modeli z wersji 1

Wróć do karty Modele. W tabeli Wskaźniki modelu model z najlepszymi wynikami jest oznaczany ikoną trofeum Trofeum. Oznacza to, że jest to najskuteczniejszy model na podstawie wyniku F1.

Tabela Wskaźniki modelu przedstawiająca najskuteczniejsze modele dla wersji 1

Tabela wskaźników modelu przedstawiająca kluczowe wskaźniki modelu.

Wróć do karty Modele. W tabeli Wskaźniki modelu model z najlepszymi wynikami jest oznaczany ikoną trofeum Trofeum. Oznacza to, że jest to najskuteczniejszy model na podstawie wyniku F1.

Posortuj modele od najwyższej do najniższej wydajności, klikając nagłówek kolumny F1 . Możesz zdecydować się na wykluczenie algorytmów o niskiej wydajności lub skupić się tylko na najlepszym, aby uzyskać szybsze wyniki w następnej iteracji uczenia. Zajmiemy się tym podczas konfigurowania wersji 3 w dalszej części.

Identyfikacja wycieku danych

Przyjrzyj się wykresom Wnioski dotyczące modelu w prawej części strony. Wykresy te wskazują znaczenie względne każdej cechy, a także wydajność modelu.

Z wykresu Ważność permutacji oraz listy Cechy w panelu Konfiguracja eksperymentu widać, że ta pierwsza iteracja modelu w bardzo dużym stopniu polega na cesze DaysSinceLastService, a wszystkie pozostałe cechy nie mają w porównaniu z nią prawie żadnego znaczenia.

Wykres Ważność permutacji na karcie Modele, pokazujący wyciek danych

Wykres ważności permutacji dla najskuteczniejszego modelu v1 przedstawiający cechę „DaysSinceLastService”, która pochłania prawie cały wpływ na pełny model

Ta rozbieżność oraz ekstremalnie wysokie wyniki wydajności F1 modeli świadczą o tym, że coś jest nie tak. W tym przypadku nie zdefiniowano żadnej logiki podczas gromadzenia danych, aby zatrzymać zliczanie dni od ostatniego zgłoszenia serwisowego w przypadku klientów, którzy anulowali subskrypcję. W rezultacie model nauczył się kojarzyć dużą liczbę dni od ostatniego zgłoszenia serwisowego (występującą w przypadku klientów, którzy zrezygnowali wiele lat temu) z wartością yes w polu Churned.

Jest to przykład wycieku danych, ponieważ w rzeczywistości model miałby dostęp do informacji tylko do czasu sporządzania predykcji, a liczba dni zawarta w tym polu została zebrana po tym punkcie pomiaru. Problem ten nazywa się wyciekiem danych celu i jest formą wycieku danych. Aby uzyskać więcej informacji na temat wycieku danych, zobacz Wyciek danych.

Musimy usunąć „nieszczelną” cechę DaysSinceLastService z konfiguracji eksperymentu, ponieważ wypacza ona wynikowe modele. Należy zauważyć, że w rzeczywistym przypadku przed utworzeniem modelu należy dokładnie zbadać jakość danych i logikę, aby upewnić się, że wynikowy model będzie prawidłowo uczony.

Zajmiemy się tym podczas konfigurowania wersji 2.

Konfigurowanie i uruchamianie wersji 2

Skonfigurujmy nową wersję, aby zaradzić wyciekowi danych.

  1. Kliknij Wyświetl konfigurację, aby rozwinąć panel konfiguracji eksperymentu.

  2. Kliknij Nowa wersja.

  3. W panelu w obszarze Cechy usuń zaznaczenie pola wyboru DaysSinceLastService.

  4. Kliknij Uruchom v2.

Usuwanie DaysSinceLastService dla wersji 2

Panel konfiguracji eksperymentu pokazujący konfigurację wersji 2.

Analiza modeli z wersji 2

Po zakończeniu działania drugiej wersji eksperymentu kliknij pole wyboru obok najskuteczniejszego modelu wersji 2 w tabeli Wskaźniki modelu (oznaczonego ikoną trofeum Trofeum). Spowoduje to odświeżenie strony ze wskaźnikami dla tego modelu.

Porównanie wskaźników uczenia i wstrzymania

Możesz zobaczyć dodatkowe wskaźniki i porównać wskaźniki z uczenia z walidacją krzyżową ze wskaźnikami danych wstrzymania.

  1. W eksperymencie przejdź na kartę Porównaj.

    Zostanie otwarta osadzona analiza. Możesz skorzystać z interaktywnego interfejsu, aby bardziej zagłębić się w analizę porównawczą modelu i odkryć nowe wnioski.

  2. W panelu Arkusze po prawej stronie analizy przejdź do arkusza Details.

  3. Spójrz na tabelę Model Metrics. Pokazuje wskaźniki oceny modelu, takie jak F1, a także inne informacje.

  4. W wersji 1 na uczenie miał wpływ wyciek danych celu, dlatego skupmy się tylko na wersji 2. Użyj panelu filtrowania Version po prawej stronie arkusza, aby wybrać wartość 1.

  5. W sekcji Columns to show użyj panelu filtrowania, aby dodawać i usuwać kolumny w tabeli.

  6. Na liście rozwijanej dodaj dodatkowe wskaźniki. Wyniki treningu dla każdego wskaźnika są wyświetlane jako wartości kończące się na Train. Dodaj do tabeli trochę wskaźników uczenia.

Możesz teraz zobaczyć wskaźniki F1 z uczenia z walidacją krzyżową i porównać je ze wskaźnikami danych wstrzymania.

Dodawanie i przeglądanie wyników danych do uczenia w celu porównania z wynikami danych wstrzymania

Używanie karty „Porównaj” w eksperymencie do wyświetlenia wyników danych uczenia wraz z wynikami danych wstrzymania

Identyfikacja cech o niskiej ważności

Następnie powinniśmy sprawdzić, czy istnieją jakieś cechy o niskiej ważności permutacji. Aby zwiększyć dokładność predykcji, należy usunąć cechy, które mają niewielki wpływ na model lub nie mają go wcale.

  1. W eksperymencie wróć do karty Modele.

  2. Spójrz na wykres Ważność permutacji. Cztery dolne cechy — StartMonth, DeviceTypeCustomerTenure i Territory — wpływają na model znacznie mniej niż pozostałe cechy. Nie mają one istotnej wartości w tym przypadku i mogą być postrzegane jako szum statystyczny.

W wersji 3 możemy usunąć te cechy, aby zobaczyć, czy poprawi to wyniki modelu.

Karta Modele z wybranym najskuteczniejszym modelem v2. Wykres Ważność permutacji pokazuje, że istnieją cechy mające niewielki wpływ na model lub nie mają go wcale.

Wykres ważności permutacji dla wybranego modelu v2 pokazujący bardzo niskie znaczenie permutacji dla kilku cech

Identyfikacja algorytmów o niskiej wydajności

Możemy również zajrzeć do tabeli Wskaźniki modelu, aby sprawdzić, czy możemy usunąć jakieś algorytmy z uczenia v3. Podczas udoskonalania modeli można usunąć algorytmy o niskiej wydajności, aby uczenie przebiegało szybciej w kolejnych iteracjach.

  1. W eksperymencie wróć do karty Modele.

  2. W tabeli Wskaźniki modelu użyj filtru Wersja, aby wyświetlić tylko modele z wersji 2.

  3. Spójrz na wyniki F1 dla każdego algorytmu. Jeśli niektóre algorytmy tworzą modele, które uzyskują znacznie niższe wyniki niż inne, możemy je usunąć z następnej wersji.

Konfigurowanie i uruchamianie wersji 3

  1. Kliknij Wyświetl konfigurację, aby rozwinąć panel konfiguracji eksperymentu.

  2. Kliknij Nowa wersja.

  3. Na panelu w obszarze Cechy wyczyść pola wyboru StartMonth, DeviceTypeCustomerTenure i Territory.

  4. Opcjonalnie rozwiń Algorytmy i wyczyść pola wyboru Naiwny gaussowski klasyfikator Bayesa i Regresja logistyczna.

  5. Kliknij Uruchom v3.

Analiza modeli z wersji 3

Po uruchomieniu wersji 3 można wyczyścić filtr Wersja z tabeli Wskaźniki modelu. Wybierz najskuteczniejszy model z wersji 3.

Zróbmy szybkie porównanie modeli ze wszystkich wersji.

Pierwsza wersja uczenia dała najwyższe wyniki, ale wskutek wycieku danych były one znacznie przesadzone i nierealistycznie sugerowały efektywność. W wersji 3 wynik F1 modelu o najwyższej wydajności wzrósł w porównaniu z modelem o najwyższej wydajności w wersji 2.

Tabela Wskaźniki modelu pokazująca posortowane wyniki F1 dla modeli we wszystkich trzech wersjach. Wynik F1 poprawił się w wersji 3 po usunięciu cech o niskim znaczeniu.

Korzystanie z tabeli Wskaźniki modelu w celu szybkiego porównywania modeli uczonych w każdej z wersji eksperymentu

Jak wyjaśniono wcześniej, możesz przejść do karty Porównaj, aby uzyskać dokładniejsze porównanie wyników modelu.

Koncentracja na konkretnym modelu

W dowolnym momencie analizy modelu można przeprowadzić szczegółową analizę pojedynczego modelu. Interaktywne funkcje Qlik Sense umożliwiają przeglądanie dokładności predykcji, ważności cech i rozkładu cech.

  1. Po wybraniu najskuteczniejszego modelu v3 kliknij kartę Analizuj.

    Zostanie otwarta osadzona analiza.

  2. Za pomocą arkusza Model Overview można analizować dokładność predykcji modelu. Analizę ulepsza się przy użyciu wyborów. Kliknij cechę lub przewidywaną wartość, aby dokonać wyboru. Dane we wbudowanej analizie dostosowują się w celu filtrowania danych. Można drążyć określone wartości i zakresy cech, aby zobaczyć, jak zmienia się wpływ cech i dokładność predykcji.

  3. Po przełączeniu na inne arkusze można przeglądać wizualizacje dotyczące dokładności predykcji, rozkładu cech i rozkładu wpływu (SHAP). Te treści analityczne mogą pomóc w wykonywaniu następujących zadań:

    • Odkrywanie kluczowych czynników wpływających na trendy w danych.

    • Identyfikacja, jak określone cechy i kohorty wpływają na przewidywane wartości i dokładność predykcji.

    • Identyfikacja wartości odstających w danych.

Karta Analizuj w eksperymencie uczenia maszynowego

Korzystanie z karty „Analizuj” w celu ulepszenia analizy dzięki wyborom

Następne kroki

W warunkach rzeczywistych ważne jest, aby przed wdrożeniem modelu powtórzyć kroki ulepszania tyle razy, ile potrzeba, by mieć pewność, że ma się najlepszy możliwy model dla konkretnego przypadku.

W tym kursie przejdź do następnej sekcji dotyczącej wdrażania modelu.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!