Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Automatyczna inżynieria cech

Dzięki automatycznej inżynierii cech Qlik AutoML może wykorzystywać istniejące cechy w danych do uczenia w celu tworzenia nowych cech. Te nowe, uzyskane w wyniku automatycznej inżynierii cechy umożliwiają odkrywanie nowych wzorców w danych i mogą znacznie poprawić wydajność modeli uczenia maszynowego.

Inżynieria cech to proces tworzenia nowych kolumn cech z bieżących. AutoML może automatycznie dokonywać inżynierii cech w celu lepszej obsługi niektórych typów danych. Aby uzyskać ogólne informacje na temat inżynierii cech, zobacz temat Tworzenie nowych kolumn cech.

Cechy daty uzyskane w wyniku automatycznej inżynierii oraz cechy nadrzędne, z których pochodzą, są oznaczone ikoną Poddane automatycznej inżynierii.

Po wybraniu zbioru danych do wykorzystania w eksperymencie zestaw danych jest analizowany, a zawarte w nim kolumny identyfikowane jako zawierające określone typy danych. Te typy danych umożliwiają AutoML przypisanie typu cechy do każdej kolumny w zestawie danych. Każdej kolumnie jest przypisany jeden z następujących typów cech:

  • Kategorialne

  • Liczbowe

  • Data

  • Dowolny tekst

Jeśli to możliwe, AutoML wyświetla listę cech uzyskanych w wyniku automatycznej inżynierii, które można utworzyć z kwalifikujących się cech nadrzędnych. Ta lista cech uzyskiwanych w wyniku automatycznej inżynierii jest dalej udoskonalana i zawężana, gdy rozpoczyna się przetwarzanie wstępne. Uwzględnianie w eksperymencie cech uzyskanych w wyniku automatycznej inżynierii jest zalecane, ale opcjonalne. Poszczególne cechy uzyskane w wyniku automatycznej inżynierii można usunąć przed rozpoczęciem uczenia i podczas konfigurowania każdej nowej wersji eksperymentu.

Aby uzyskać więcej informacji na temat procesów wykonywanych przed rozpoczęciem uczenia w ramach eksperymentu, zobacz temat Automatyczne przygotowanie i przekształcanie danych.

Inżynieria cechy daty

AutoML generuje cechy przy użyciu automatycznej inżynierii z kwalifikujących się kolumn z typem cechy data, które zostały zidentyfikowane jako zawierające informacje o dacie i godzinie. Cechy daty uzyskane w wyniku automatycznej inżynierii oraz cechy nadrzędne, z których pochodzą, są oznaczone ikoną Poddane automatycznej inżynierii.

Kiedy Analityka Qlik Cloud profiluje zestaw danych do uczenia wybrany do użycia w AutoML, łączy pewne typy danych z typem cechy data. Obejmuje to następujące typy danych:

  • Data

  • Datetime

  • Godzina

  • Znacznik czasu

Cechom, którym podczas profilowania zostanie przypisany którykolwiek z tych typów danych, przypisywany jest typ cechy data. Aby uzyskać informacje na temat dostępnych statystyk profilu, które można przeglądać dla pól danych, zobacz temat Widok Lista profili.

Jeśli to możliwe, AutoML wyświetla listę cech uzyskanych w wyniku automatycznej inżynierii, które można utworzyć z kwalifikujących się cech nadrzędnych mających typ cechy data. Cechy uzyskane w wyniku automatycznej inżynierii są domyślnie uwzględniane w eksperymencie. Jeśli zdecydujesz się je uwzględnić, nowe cechy zostaną wygenerowane po wersji 1 eksperymentu.

InformacjaZaleca się ponowne uczenie modeli uczonych przed 29 sierpnia 2023 r., jeśli zawierają cechy obejmujące daty lub znaczniki czasu.

Cechy uzyskane w wyniku automatycznej inżynierii mają typ liczbowy. Są one domyślnie uwzględniane w eksperymencie, ale opcjonalne. Możesz usunąć niektóre lub wszystkie z nich przed rozpoczęciem uczenia w ramach eksperymentu lub podczas konfigurowania kolejnej wersji eksperymentu. Jeśli uzyskane w wyniku automatycznej inżynierii cechy typu data zostaną uwzględnione, oryginalna nadrzędna cecha typu data zostanie usunięta z eksperymentu.

Zamiast tego możesz uwzględnić w eksperymencie nadrzędną cechę daty. W takim przypadku typ cechy nadrzędnej zostanie zmieniony z daty na kategorialny, a uzyskane w wyniku automatycznej inżynierii cechy daty nie będą już przydatne. Zaleca się korzystanie w eksperymencie z dostępnych cech uzyskanych w wyniku automatycznej inżynierii, ponieważ zapewniają one lepszą wydajność modeli uczenia maszynowego.

Cechy typu data uzyskane w wyniku automatycznej inżynierii nie są wliczane do wielkości zestawu danych AutoML (maksymalnej liczby komórek w zestawach danych do uczenia i stosowania) określonej w subskrypcji Qlik Cloud. Liczone są tylko oryginalne komórki kolumny daty.

Widok schematu przedstawiający cechy uzyskane w wyniku inżynierii automatycznej, które można wygenerować na podstawie nadrzędnej cechy typu data „Invoice Date”. Zwróć uwagę na różnicę między typem danych i typem cechy każdej z cech.

Widok schematu w szkoleniu w ramach eksperymentu, pokazujący cechę nadrzędną zidentyfikowaną jako cecha typu data wraz z możliwymi, uzyskanymi w wyniku automatycznej inżynierii cechami, które można z niej utworzyć.

Używanie cech typu data jako celu eksperymentu

W rzadkich przypadkach, gdy jako celu eksperymentu chcesz użyć cechy zawierającej informacje o dacie i godzinie, typ cechy w kolumnie zostanie zmieniony z daty na kategorialny, a cechy uzyskane w wyniku inżynierii automatycznej zostaną usunięte. Jeżeli wybierzesz inny cel, a później zechcesz dodać cechę daty i godziny jako zwykłą cechę, w razie potrzeby trzeba będzie ją zmienić z powrotem na typ cechy data i godzina ręcznie. Jeśli przywrócisz typ cechy data, uzyskane w wyniku inżynierii automatycznej cechy typu data zostaną wygenerowane ponownie.

Aby uzyskać więcej informacji na temat zmiany typów cech, zobacz temat Zmiana typów danych cech.

Dostępne cechy poddawane automatycznej inżynierii

Podczas generowania uzyskiwanych w wyniku inżynierii automatycznej cech typu data z kolumny w zestawie danych AutoML wyodrębnia i oblicza określone składniki każdej wartości typu data oraz data i godzina, izolując każdy składnik w osobnej kolumnie. Poniższa tabela zawiera listę cech uzyskiwanych w wyniku inżynierii automatycznej, które mogą być generowane przez AutoML.

Lista cech uzyskiwanych w wyniku inżynierii automatycznej, które można wyprowadzić z cechy typu data i godzina
Cecha poddana automatycznej inżynierii Typ danych Typ cechy Opis
YEAR Liczba całkowita Liczbowe Pole roku uzyskane w wyniku bezpośredniej analizy źródłowej daty lub znacznika czasu.
MONTH Liczba całkowita Liczbowe Pole miesiąca uzyskane w wyniku bezpośredniej analizy źródłowej daty lub znacznika czasu.
DAY Liczba całkowita Liczbowe Pole dnia uzyskane w wyniku bezpośredniej analizy źródłowej daty lub znacznika czasu.
HOUR Liczba całkowita Liczbowe Pole godziny uzyskane w wyniku bezpośredniej analizy źródłowego znacznika czasu.
MINUTE Liczba całkowita Liczbowe Pole minuty uzyskane w wyniku bezpośredniej analizy źródłowego znacznika czasu.
SECOND Liczba całkowita Liczbowe Pole sekundy uzyskane w wyniku bezpośredniej analizy źródłowego znacznika czasu.
DAYOFWEEK Liczba całkowita Liczbowe Dzień tygodnia obliczony ze źródłowego dnia, miesiąca i roku.
WEEK Liczba całkowita Liczbowe Tydzień roku obliczony ze źródłowego dnia, miesiąca i roku.

Dla każdej nowo utworzonej cechy do oryginalnej nazwy kolumny dodawany jest sufiks odpowiedniej cechy uzyskanej w wyniku inżynierii automatycznej.

Uzyskane w wyniku inżynierii automatycznej cechy typu data w panelu konfiguracji eksperymentu

Sekcja Cechy w panelu konfiguracji eksperymentu, pokazująca cechy uzyskane w wyniku inżynierii automatycznej.

Cechy typu data uzyskane w wyniku inżynierii automatycznej w predykcjach

Cechy typu data uzyskane w wyniku inżynierii automatycznej są generowane podczas korzystania z zestawu danych do uczenia w celu utworzenia modelu, który jest wdrażany i używany jako wdrożenie uczenia maszynowego w celu przewidywania nowych danych (zestaw danych do zastosowania).

Jeśli do tworzenia predykcji zostanie wdrożony model uczony przy użyciu cech typu data uzyskanych w wyniku inżynierii automatycznej, zestaw danych do zastosowania, na podstawie którego generowane są prognozy, nie musi zawierać cech typu data uzyskanych w wyniku inżynierii automatycznej. AutoML generuje cechy uzyskiwane w wyniku inżynierii automatycznej dla zestawu danych do zastosowania przed tworzeniem predykcji. Zestaw danych do zastosowania musi jednak zawierać nadrzędną cechę daty, a kolumna musi być profilowana jako mająca typ danych Data, Data i godzina, Znacznik czasu lub Czas.

Zestawy danych do predykcji utworzone przez wdrożenie uczenia maszynowego, w tym zestawy danych SHAP i danych do zastosowania, będą zawierać poddane automatycznej inżynierii cechy daty.

Poddane automatycznej inżynierii cechy daty w predykcjach w czasie rzeczywistym

Aby interfejs API predykcji w czasie rzeczywistym mógł przetwarzać pola daty i znaczników czasu, ładunek JSON wysyłany do interfejsu API predykcji w czasie rzeczywistym musi spełniać poniższe wymagania:

  • Wartości daty oraz daty i godziny muszą być ciągami znaków sformatowanymi zgodnie ze standardami ISO 8601

  • Dane w każdej kolumnie muszą pochodzić z tej samej strefy czasowej

InformacjaDane używane do uczenia modelu nie muszą spełniać tych wymagań.

Obsługa danych typu dowolny tekst

Dowolny tekst (na przykład dane w postaci ciągu tekstowego wprowadzane do formularzy) wymaga specjalnego przetwarzania przez algorytmy uczenia maszynowego, aby był użyteczny w modelu. W Qlik AutoML przetwarzanie dowolnego tekstu jest formą automatycznej inżynierii cech. Z technicznego punktu widzenia przetwarzanie to wykorzystuje metodę TF-IDF (ważenie częstością termów — odwrotna częstość w dokumentach).

AutoML obsługuje oddzielne przetwarzanie cech z danymi typu dowolny tekst w języku angielskim.

Jeśli kolumna w danych treningowych zawiera dowolny tekst, przypisywany jest jej typ cechy dowolnego tekstu. Można jej również używać jako cechy kategorialnej, chociaż zdecydowanie się to odradza, jeśli ma wysoką kardynalność (zbyt wiele unikatowych wartości).

Możesz wybrać maksymalnie trzy kolumny, które będą używane jako cechy typu dowolny tekst w eksperymencie.

InformacjaZaleca się, aby modele nauczone przed 23 stycznia 2024 r. zostały nauczone ponownie, jeśli korzystają z pól zawierających dane w postaci dowolnego tekstu.

Wymagania dotyczące kodowania dowolnego tekstu

Aby kolumnę zawierającą dowolny tekst można było zakodować jako dowolny tekst, musi ona spełniać dwa wymagania. Wymagania te sprawdzane są na różnych etapach tworzenia eksperymentu.

Wymagania są następujące:

  • Kolumna musi mieć średnią długość co najmniej 50 znaków.

  • Kolumna musi mieć średnią długość w słowach wynoszącą co najmniej pięć słów.

Traktowanie cechy jako dowolnego tekstu

Proces traktowania cechy jako dowolnego tekstu wygląda następująco:

  1. Po wybraniu danych do uczenia Qlik AutoML identyfikuje cechy, które ewentualnie mogą być przetwarzane jako dowolny tekst. Są one oznaczone wnioskiem Ewentualny dowolny tekst w widoku schematu i będą miały typ cechy dowolnego tekstu.

  2. Po uruchomieniu wersji 1. eksperymentu zostanie wykonana dodatkowa analiza. W tym momencie cechy początkowo oznaczone jako ewentualny dowolny tekst mogą okazać się bezużyteczne jako cechy typu dowolny tekst.

    Jeśli cechy, które nie nadają się do wykorzystania jako dowolny tekst, mają wysoką kardynalność, zaleca się usunięcie ich zaznaczenia w eksperymencie. Cechy te, traktowane jako kategorialne, nie wnoszą żadnej wartości do wydajności modelu.

    Jeśli cechy, które nie nadają się do wykorzystania jako dowolny tekst, nie mają dużej kardynalności, możesz uwzględnić je w eksperymencie, klikając Traktuj jako kategorialne lub zmieniając ich Typ cechy z dowolnego tekstu na kategorialną. Jeśli pozostawisz typ cechy jako dowolny tekst, będzie ona również wewnętrznie traktowana jako kategorialna i kodowana metodą impact encoding.

Pełne informacje na temat wstępnego przetwarzania zawiera temat Automatyczne przygotowanie i przekształcanie danych.

Więcej informacji na temat poszczególnych wniosków pokazanych w widoku schematu zawiera temat Wyświetlanie wniosków na temat danych do uczenia.

Używanie cech typu dowolny tekst jako celu eksperymentu

W rzadkich przypadkach jako cel można wybrać cechę typu dowolny tekst. Jeśli cecha spełnia wszystkie wymagania dotyczące kodowania dowolnego tekstu i zawiera od dwóch do dziesięciu unikatowych wartości, może być używana jako cel. W takich sytuacjach eksperyment definiuje się jako standardowy problem klasyfikacji binarnej lub wieloklasowej.

Cechy typu dowolny tekst w predykcjach

Po wdrożeniu modelu przeszkolonego za pomocą funkcji dowolnego tekstu wynikowe wdrożenie uczenia maszynowego może generować predykcje, o ile zostaną spełnione następujące wymagania dotyczące zestawu danych do zastosowania:

  • Nazwy kolumn cech są zgodne z zestawami danych do uczenia i zastosowania

  • Kolumna w zestawie danych do zastosowania, która odpowiada cesze dowolnego tekstu w danych do uczenia, zawiera dane w postaci ciągu

OstrzeżenieJeśli powyższe wymagania zostaną spełnione, predykcja przebiegnie pomyślnie. Innymi słowy, predykcja zakończy się pomyślnie, nawet jeśli odpowiednia kolumna w zestawie danych do zastosowania nie będzie zawierać dowolnego tekstu. Predykcja wygenerowana w tej sytuacji nie jest uważana za wiarygodną. Należy zawsze dopilnować, by równoważna kolumna w zestawie danych do zastosowania, która odpowiada cesze typu dowolny tekst w danych do uczenia, zawierała dowolny tekst.

Uwagi

Uwzględnienie w eksperymencie cech typu dowolny tekst zwiększa złożoność eksperymentu i procesów wymaganych do jego przeprowadzenia. Wykresy Ważność permutacji mogą być niedostępne dla wynikowych modeli, jeśli dane typu dowolny tekst będą wystarczająco złożone.

Rozwiązywanie problemów

Używanie danych typu dowolny tekst do uczenia modelu może być procesem intensywnie wykorzystującym zasoby. Jeżeli jako cechy dołączysz kolumny z dowolnym tekstem zawierające dużą liczbę unikatowych słów, może wystąpić błąd.

Oto kilka wskazówek, jak rozwiązać takie błędy:

  • Zmniejsz podzestaw danych w zestawie danych do uczenia, aby uwzględnić mniej wierszy dowolnego tekstu.

  • Usuń cechy typu dowolny tekst, których nie musisz uwzględniać w uczeniu modelu.

  • Traktuj jedną lub więcej kolumn z dowolnym tekstem jako cechy kategorialne, a nie jako dowolny tekst. Należy pamiętać, że nie jest to zalecane, jeśli cechy typu dowolny tekst mają wysoką kardynalność.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!