Obsługa danych typu dowolny tekst
Dowolny tekst (na przykład dane w postaci ciągu tekstowego wprowadzane do formularzy) wymaga specjalnego przetwarzania przez algorytmy uczenia maszynowego, aby był użyteczny w modelu. W Qlik Predict przetwarzanie dowolnego tekstu jest formą automatycznej inżynierii cech. Z technicznego punktu widzenia przetwarzanie to wykorzystuje metodę TF-IDF (ważenie częstością termów — odwrotna częstość w dokumentach).
Qlik Predict obsługuje oddzielne przetwarzanie cech z danymi typu dowolny tekst w języku angielskim.
Jeśli kolumna w danych do uczenia zawiera dowolny tekst, przypisywany jest jej typ cechy dowolnego tekstu. Można jej również używać jako cechy kategorialnej, chociaż zdecydowanie się to odradza, jeśli ma wysoką kardynalność (zbyt wiele unikatowych wartości).
Możesz wybrać maksymalnie trzy kolumny, które będą używane jako cechy typu dowolny tekst w eksperymencie.
Wymagania dotyczące kodowania dowolnego tekstu
Aby kolumnę zawierającą dowolny tekst można było zakodować jako dowolny tekst, musi ona spełniać dwa wymagania. Wymagania te sprawdzane są na różnych etapach tworzenia eksperymentu.
Wymagania są następujące:
-
Kolumna musi mieć średnią długość co najmniej 50 znaków.
-
Kolumna musi mieć średnią długość w słowach wynoszącą co najmniej pięć słów.
Traktowanie cechy jako dowolnego tekstu
Proces traktowania cechy jako dowolnego tekstu wygląda następująco:
-
Po wybraniu danych do uczenia Qlik Predict identyfikuje cechy, które ewentualnie mogą być przetwarzane jako dowolny tekst. Są one oznaczone wnioskiem Ewentualny dowolny tekst w widoku schematu i będą miały typ cechy dowolnego tekstu.
-
Po uruchomieniu wersji 1. eksperymentu zostanie wykonana dodatkowa analiza. W tym momencie cechy początkowo oznaczone jako ewentualny dowolny tekst mogą okazać się bezużyteczne jako cechy typu dowolny tekst.
Jeśli cechy, które nie nadają się do wykorzystania jako dowolny tekst, mają wysoką kardynalność, zaleca się usunięcie ich zaznaczenia w eksperymencie. Cechy te, traktowane jako kategorialne, nie wnoszą żadnej wartości do wydajności modelu.
Jeśli cechy, które nie nadają się do wykorzystania jako dowolny tekst, nie mają dużej kardynalności, możesz uwzględnić je w eksperymencie, klikając Traktuj jako kategorialne lub zmieniając ich Typ cechy z dowolnego tekstu na kategorialną. Jeśli pozostawisz typ cechy jako dowolny tekst, będzie ona również wewnętrznie traktowana jako kategorialna i kodowana metodą impact encoding.
Pełne informacje na temat wstępnego przetwarzania zawiera temat Automatyczne przygotowanie i przekształcanie danych.
Więcej informacji na temat poszczególnych wniosków pokazanych w widoku schematu zawiera temat Wyświetlanie statystyk dotyczących danych do uczenia.
Używanie cech typu dowolny tekst jako celu eksperymentu
W rzadkich przypadkach jako cel można wybrać cechę typu dowolny tekst. Jeśli cecha spełnia wszystkie wymagania dotyczące kodowania dowolnego tekstu i zawiera od dwóch do dziesięciu unikatowych wartości, może być używana jako cel. W takich sytuacjach eksperyment definiuje się jako standardowy problem klasyfikacji binarnej lub wieloklasowej.
Cechy typu dowolny tekst w predykcjach
Aby dowiedzieć się o wymaganiach dotyczących uruchamiania predykcji z wdrożonym modelem wytrenowanym z cechami wolnego tekstu, zobacz Praca z cechami typu dowolny tekst w predykcjach.
Uwagi
Uwzględnienie w eksperymencie cech typu dowolny tekst zwiększa złożoność eksperymentu i procesów wymaganych do jego przeprowadzenia. Wykresy Ważność permutacji mogą być niedostępne dla wynikowych modeli, jeśli dane typu dowolny tekst będą wystarczająco złożone.
Rozwiązywanie problemów
Używanie danych typu dowolny tekst do uczenia modelu może być procesem intensywnie wykorzystującym zasoby. Jeżeli jako cechy dołączysz kolumny z dowolnym tekstem zawierające dużą liczbę unikatowych słów, może wystąpić błąd.
Oto kilka wskazówek, jak rozwiązać takie błędy:
-
Zmniejsz podzestaw danych w zestawie danych do uczenia, aby uwzględnić mniej wierszy dowolnego tekstu.
-
Usuń cechy typu dowolny tekst, których nie musisz uwzględniać w uczeniu modelu.
-
Traktuj jedną lub więcej kolumn z dowolnym tekstem jako cechy kategorialne, a nie jako dowolny tekst. Należy pamiętać, że nie jest to zalecane, jeśli cechy typu dowolny tekst mają wysoką kardynalność.
Ograniczenia
-
Automatyczna inżynieria cech tekstu swobodnego jest dostępna tylko dla zbiorów danych treningowych w ramach określonych limitów rozmiaru. Więcej informacji zawiera temat Ograniczenia zbioru danych szkoleniowych i profilowania.
-
Automatyczna inżynieria cech z dowolnego tekstu nie jest dostępna dla eksperymentów z szeregami czasowymi.