Konfigurowanie eksperymentów
Konfiguracja eksperymentów polega na wybraniu celu i cech, których model użyje do jego przewidywania. Można także skonfigurować szereg opcjonalnych ustawień.
Aby Ci pomóc w wyborze celu, analizowany jest zestaw historycznych danych i wyświetlane są podsumowujące statystyki dotyczące każdej jego kolumny. Do zestawu danych stosuje się kilka kroków automatycznego wstępnego przetwarzania, aby uwzględnione zostały tylko odpowiednie dane. Więcej informacji na temat wstępnego przetwarzania danych zawiera temat Automatyczne przygotowanie i przekształcanie danych.
Po uruchomieniu wersji 1 można w razie potrzeby utworzyć nowe wersje eksperymentu w celu dalszego doskonalenia uczenia modelu. Więcej informacji zawiera temat Ulepszanie modeli.
Wymagania i uprawnienia
Więcej informacji na temat wymagań dotyczących użytkowników w kontekście pracy z eksperymentami uczenia maszynowego zawiera temat Praca z eksperymentami.
Widoki
Domyślnym widokiem jest widok schematu, w którym każda kolumna w zestawie danych jest reprezentowana przez wiersz w schemacie z informacjami i statystykami. Więcej informacji i przykładowe dane dla każdej kolumny oferuje też widok danych. Kliknij i , aby przełączyć widoki.
Kliknij , aby otworzyć lub zamknąć panel boczny Konfiguracja eksperymentu. Tutaj znajdziesz informacje o swoim eksperymencie i bieżącej konfiguracji.
Wybieranie celu
Kolumna celu zawiera wartości, które mają być przewidywane przez model uczenia maszynowego. Kolumnę celu można zmienić do momentu rozpoczęcia pierwszego uczenia. Następnie zostaje zablokowana do edycji.
Wykonaj następujące czynności:
-
Wskaż kursorem kolumnę i kliknij wyświetloną ikonę .
Kolumna celu jest teraz wskazywana przez , a pozostałe dostępne kolumny są automatycznie wybierane jako cechy.
Po wybraniu celu możesz rozpocząć pierwszą wersję eksperymentu. Więcej informacji: Uczenie eksperymentów. W tym momencie możesz przeprowadzić dodatkową konfigurację — opisaną poniżej — lub dostosować konfigurację po przejrzeniu wyników uczenia.
Wyjaśnienia dotyczące interpretacji i przetwarzania danych są wyświetlane podczas poruszania się po uczeniu w ramach eksperymentu. Więcej informacji zawiera temat Typowe wnioski znajdowane w danych do uczenia.
Określanie typu tworzonego modelu
Kolumna wybrana jako cel określa typ modelu tworzonego w ramach eksperymentu. To z kolei odgrywa rolę w określaniu, które algorytmy zostaną użyte do uczenia modelu. Niektóre kolumny w zestawie danych mogą być niedostępne jako cel na potrzeby eksperymentu lub mogą być do nich zastosowane określone procesy przetwarzania.
Typy modeli to:
-
Model klasyfikacji binarnej
-
Model klasyfikacji wieloklasowej
-
Model regresji
W poniższej tabeli podsumowano czynniki celu, które determinują rodzaj używanego modelu.
Typ modelu | Liczba odrębnych wartości w kolumnie | Wymagany typ cechy | Dodatkowe informacje |
---|---|---|---|
Klasyfikacja binarna | 2 | Dowolny | – |
Klasyfikacja wieloklasowa | 3-10 | Dowolny | Kolumny zawierającej więcej niż 10 odrębnych, nienumerycznych klas nie można wybrać jako celu. |
Regresja | Więcej niż 10 | Liczbowe | – |
Wybieranie kolumn cech
Kiedy cel został ustawiony, możesz wybrać, które z pozostałych dostępnych kolumn mają zostać uwzględnione w uczeniu modelu. Wyklucz wszystkie cechy, które nie powinny być uwzględniane w modelu. Zauważ, że kolumna pozostanie w zestawie danych, ale nie będzie używana przez algorytm uczenia.
U góry panelu Konfiguracja eksperymentu widać liczbę komórek w zestawie danych. Jeśli liczba przekracza limit zestawu danych, możesz wykluczyć cechy, aby zejść poniżej limitu.
Kolumny cech można wybrać na różne sposoby:
-
Wyczyść ręcznie pola wyboru cech, których nie chcesz uwzględniać.
-
Kliknij Wyklucz wszystkie cechy, a następnie wybierz tylko te, które chcesz uwzględnić.
-
Wyszukaj i wyklucz lub uwzględnij wszystkie cechy w przefiltrowanym wyniku wyszukiwania.
-
Po uruchomieniu pierwszej wersji eksperymentu możesz zdefiniować Liczbę najważniejszych cech do uwzględnienia.
Podczas wybierania cech zostaje im automatycznie przypisany typ. Możliwe typy cech to:
-
Kategorialne
-
Liczbowe
-
Data
-
Dowolny tekst
Typ cechy jest przypisywany na podstawie danych zawartych w kolumnie cechy. Jeśli cecha spełnia określone kryteria, może zostać przygotowana jako podstawa dla cech poddanych automatycznej inżynierii. W razie potrzeby możesz zmienić ustawienie używania danej cechy do automatycznej inżynierii. Szczegółowe informacje na temat automatycznej inżynierii cech zawiera temat Automatyczna inżynieria cech.
Niektóre kolumny w zestawie danych mogą być niedostępne jako cechy na potrzeby eksperymentu lub mogą być do nich zastosowane określone procesy przetwarzania. Wyjaśnienia dotyczące interpretacji i przetwarzania danych są wyświetlane podczas poruszania się po uczeniu w ramach eksperymentu. Więcej informacji zawiera temat Typowe wnioski znajdowane w danych do uczenia.
Wybór algorytmów
Wszystkie dostępne algorytmy są uwzględniane domyślnie, a algorytmy, których nie chcesz używać, możesz wykluczyć. Normalnie robi się to w ramach udoskonalania modelu, po zapoznaniu się z pierwszymi wynikami uczenia. Więcej informacji: Ulepszanie modeli.
Zmiana typów danych cech
Po załadowaniu zestawu danych kolumny są traktowane jako kategorialne, liczbowe, data lub dowolny tekst na podstawie typu danych. W niektórych przypadkach warto zmienić to ustawienie.
Jeżeli na przykład dni tygodnia są reprezentowane przez cyfry 1–7, każda cyfra reprezentuje wartość kategorialną. Domyślnie jest traktowana jako ciągła wartość liczbowa klasyfikacji, dlatego trzeba ręcznie zmienić konfigurację, aby była traktowana jako kategorialna. Można także przekonwertować typ cechy kategorialnej na typ cechy liczbowej.
Kiedy kolumna zostanie zidentyfikowana jako zawierająca informacje o dacie i godzinie, zostanie wykorzystana jako podstawa dla nowych cech poddanych inżynierii automatycznej. Kiedy tak się stanie, oryginalna kolumna (cecha nadrzędna) jest traktowana jako mająca cechę typu data. Typ cechy nadrzędnej można zmienić z daty na cechę kategorialną.W takim przypadku nie będzie już można używać cech poddanych inżynierii automatycznej do uczenia w ramach eksperymentu.
Wykonaj następujące czynności:
-
W kolumnie Typ cechy kliknij .
-
Wybierz wartość z listy.
Wszystkie kolumny ze zmienionym typem cechy można zobaczyć w panelu Konfiguracja eksperymentu w obszarze Obróbka danych.
Zmiana zestawu danych
Zestaw danych do uczenia możesz zmienić przed uruchomieniem pierwszej wersji eksperymentu, a także po uruchomieniu dowolnej wersji.
Jeśli zmienisz zestaw danych przed uruchomieniem pierwszej wersji, utracisz całą konfigurację wykonaną przed zmianą zestawu danych.
Wykonaj następujące czynności:
W panelu Konfiguracja eksperymentu w obszarze Dane do uczenia kliknij Zmień zestaw danych.
Wybierz nowy zestaw danych.
Więcej informacji na temat zmiany i odświeżania zestawu danych podczas doskonalenia modelu (po uruchomieniu wersji eksperymentu) zawiera temat Zmiana i odświeżenie zestawu danych.
Konfigurowanie optymalizacji hiperparametrów
Model można zoptymalizować przy użyciu optymalizacji hiperparametrów. Pamiętaj, że jest to opcja zaawansowana, która może znacznie wydłużyć czas uczenia. Więcej informacji zawiera temat Optymalizacja hiperparametrów.
Wykonaj następujące czynności:
W panelu Konfiguracja eksperymentu rozwiń sekcję Optymalizacja modelu.
Zaznacz pole wyboru Optymalizacja hiperparametrów.
Opcjonalnie ustaw limit czasowy optymalizacji. Domyślny limit czasu to jedna godzina.
Typowe wnioski znajdowane w danych do uczenia
W zależności od jakości zestawu danych mogą występować ograniczenia w wykorzystaniu określonych części danych w konfiguracji eksperymentu. Kolumna Wnioski w widoku schematu jest pomocna w identyfikowaniu określonych cech pól danych oraz sposobu ich przetwarzania przez algorytmy uczenia maszynowego.
W poniższej tabeli przedstawiono możliwe wnioski, które mogą być wyświetlane w schemacie:
Wniosek | Znaczenie | Wpływ na konfigurację |
---|---|---|
Stała | Kolumna ma tę samą wartość we wszystkich wierszach. | Kolumny nie można używać jako celu ani uwzględnionej cechy. |
One-hot encoded | Typ cechy jest kategorialny, a kolumna ma mniej niż 14 unikatowych wartości. | Brak wpływu na konfigurację. |
Kodowane średnią | Typ cechy jest kategorialny, a kolumna ma 14 lub więcej unikatowych wartości. | Brak wpływu na konfigurację. |
Wysoka kardynalność | Kolumna ma zbyt wiele unikatowych wartości i może negatywnie wpłynąć na wydajność modelu, jeśli będzie używana jako cecha. | Kolumny nie można użyć jako celu. Zostanie ona automatycznie wykluczona jako cecha, ale w razie potrzeby nadal będzie mogła zostać uwzględniona. |
Dane rzadkie | Kolumna zawiera zbyt wiele wartości pustych. | Kolumny nie można używać jako celu ani uwzględnionej cechy. |
Klasa niedostatecznie reprezentowana | Kolumna ma klasę zawierającą mniej niż 10 wierszy. | Kolumny nie można używać jako celu, ale można ją uwzględnić jako cechę. |
<liczba> cech poddanych automatycznej inżynierii | Kolumna jest cechą nadrzędną, której można użyć do wygenerowania elementów poddanych inżynierii automatycznej. | Jeśli ta cecha nadrzędna zostanie zinterpretowana jako cecha daty, zostanie automatycznie usunięta z konfiguracji. Zamiast tego zaleca się używanie poddanych inżynierii automatycznej cech daty, które można wygenerować na jej podstawie. Można zastąpić to ustawienie i uwzględnić tę cechę zamiast cech poddanych inżynierii automatycznej. |
Cecha poddana automatycznej inżynierii | Kolumna ta jest cechą poddaną inżynierii automatycznej, która może zostać lub została wygenerowana na podstawie nadrzędnej cechy daty. Nie pojawiła się ona w oryginalnym zestawie danych. | Podczas uczenia w ramach eksperymentu możesz usunąć jedną lub więcej z tych cech poddanych inżynierii automatycznej. Jeśli zmienisz typ cechy nadrzędnej na kategorialny, wszystkie cechy poddane inżynierii automatycznej zostaną usunięte. |
Nie można przetworzyć jako daty | Kolumna prawdopodobnie zawiera informacje o dacie i godzinie, ale nie można jej użyć do utworzenia cech daty poddanych inżynierii automatycznej. | Cecha ta zostaje usunięta z konfiguracji. Jeśli na podstawie tej cechy nadrzędnej wygenerowano wcześniej cechy poddane inżynierii automatycznej, zostaną one usunięte z przyszłych wersji eksperymentu. Nadal możesz korzystać z tej cechy w eksperymencie, ale musisz zmienić jej typ na kategorialny. |
Ewentualny dowolny tekst | Kolumna mogłaby być ewentualnie dostępna do wykorzystania jako cecha typu dowolny tekst. | Do kolumny jest przypisany typ cechy dowolnego tekstu. Aby sprawdzić, czy funkcja może być przetwarzana jako dowolny tekst, musisz uruchomić wersję eksperymentu. |
Dowolny tekst | Potwierdzono, że kolumna zawiera dowolny tekst. Może być przetwarzana jako dowolny tekst. | Ta cecha nie wymaga żadnych dodatkowych konfiguracji. |
Nie można przetworzyć jako dowolnego tekstu | Dalsza analiza wykazała, że kolumny nie można przetwarzać jako dowolnego tekstu. | Usuń zaznaczenie tej cechy w konfiguracji dla kolejnej wersji eksperymentu. Jeżeli cecha nie ma dużej kardynalności, można alternatywnie zmienić typ cechy na kategorialny. |