Automatyczne przygotowanie i przekształcanie danych

Zestaw danych wybrany do eksperymentu jest automatycznie przetwarzany wstępnie w celu przygotowania go do uczenia modelu. Etapy przetwarzania wstępnego obejmują przygotowanie i transformację danych. Zwiększa to jakość danych, dzięki czemu model może generować dokładne wyniki.

Do wstępnego przetwarzania danych stosuje się różne techniki nauki o danych. Większość kroków jest wykonywana domyślnie i dobrze sprawdza się w wielu przypadkach. Znajomość tych domyślnych kroków — oraz koncepcji, na których się opierają — może pomóc w zrozumieniu, co należy zrobić z danymi w konkretnym przypadku, zanim użyje się ich do uczenia modelu.

Konfiguracja eksperymentu

Przed rozpoczęciem przetwarzania wstępnego Qlik Predict wykonuje kilka kroków przygotowawczych i oferuje podgląd sposobu postępowania z danymi. Niektóre kroki zależą od typu eksperymentu i innych czynników. Poniższe kroki mogą mieć zastosowanie:

Klasyfikacja kolumn w zestawie danych jako mających cechę typu kategorialnego, liczbowego, daty lub tekstu dowolnego.
- Zmiennoprzecinkowe, podwójne i dziesiętne typy danych są zawsze uważane za liczbowe.
- Kolumny z danymi typu ciąg, zawierające średnio mniej niż 50 znaków, są klasyfikowane jako kategorialne.
- Kolumny z danymi typu ciąg, zawierające średnio 50 lub więcej znaków, są klasyfikowane jako dowolny tekst. Na tym etapie nie można jednak zagwarantować, że kolumny te nadadzą się do wykorzystania jako cechy typu dowolny tekst. Dodatkowe wymagania są sprawdzane podczas przetwarzania wstępnego. Zob. Kroki przetwarzania wstępnego.
- Dane typu liczba całkowita są zawsze uważane za liczbowe.
- Przyjmuje się, że typy danych daty i znacznika czasu zawsze mają typ cechy data. Podczas konfiguracji eksperymentu Qlik Predict wyświetla podgląd cech poddanych inżynierii automatycznej, które można ewentualnie wyprowadzić z nadrzędnej cechy daty.
Sprawdź każdą kolumnę pod kątem rzadkości, stałych i wysokiej kardynalności. Wyklucz kolumnę, jeśli:
- Kolumna ma 50 procent lub więcej wartości null. Usunięcie rekordów zawierających wartość null dla cechy może prowadzić do usunięcia przydatnych przykładów do uczenia. Przykład może uratować imputacja wartości, ale rekord staje się jedynie przybliżeniem rzeczywistości. Dlatego często lepiej jest wykluczyć cechy z dużą liczbą (ponad 50 procent) wartości pustych. Zauważ, że 0 nigdy nie jest uważane za null.
- Kolumna ma tę samą wartość w każdym wierszu (stałą). Innymi słowy, kolumna ma niską kardynalność. Cechy z tylko jedną wartością nie mają wartości predykcyjnej.
- Kolumna jest kategorialna i zawiera co najmniej 90 procent lub więcej unikatowych wartości (wysoka kardynalność). Zbyt wiele unikatowych wartości utrudnia modelowi uogólnianie poza zestawem danych do uczenia.

Po rozpoczęciu przetwarzania wstępnego można wprowadzić zmiany w sposobie postępowania z danymi.

Kroki przetwarzania wstępnego

Po wybraniu kolumny docelowej kolejne kroki zależą od typu eksperymentu. W przypadku eksperymentów klasyfikacji i regresji identyfikowane i separowane są wiersze, w których wartość celu ma wartość null, a pozostawiane są wiersze, w których cel jest znany jako zestaw do uczenia. W przypadku eksperymentów szeregów czasowych brakujące wartości docelowe są interpolowane.

Do podejmowania decyzji w dalszych krokach wykorzystywane są wyłącznie dane z zestawu do uczenia. Kroki wraz z metadanymi zostaną zapisane i zastosowane do wszelkich nowych danych, na podstawie których model będzie mógł dokonywać predykcji.

Przetwarzanie wstępne jest przeprowadzane na uwzględnionych cechach za każdym razem, gdy uruchamia się nową wersję eksperymentu. Niektóre kroki zależą od typu eksperymentu i innych czynników.

Oblicz i zapisz średnią wartości liczbowych oraz dominantę dla wartości kategorialnych.
Imputuj brakujące wartości. Więcej informacji zawiera temat Imputacja wartości null.
Zakoduj zmienne kategorialne.
W przypadku modeli szeregów czasowych wykonuje się szereg kroków w celu sprawdzenia poprawności skonfigurowanych przez użytkownika właściwości eksperymentu oraz dostarczenia użytkownikowi dodatkowych informacji po zakończeniu trenowania:
- Określone jest maksymalne okno prognozy.
- Potwierdzany jest krok czasowy indeksu daty.
- Wybrane przez użytkownika grupowania docelowe są walidowane lub, jeśli nie zostały określone, są identyfikowane, jeśli występują w uwzględnionych cechach kategorycznych.
Wygeneruj nowe funkcje na podstawie istniejących kolumn w zestawie danych. Te nowe cechy poddane inżynierii automatycznej mogą poprawić wydajność i możliwości predykcyjne tworzonych modeli.

Kolumny zidentyfikowane jako możliwy dowolny tekst są sprawdzane pod kątem średniej długości w słowach. Jeśli kolumna ma średnią długość w słowach przekraczającą pięć słów, może zostać zakodowana jako cecha typu dowolny tekst przy użyciu automatycznej inżynierii cech. W przeciwnym razie wyświetli się ostrzeżenie. Jeśli cechy nie można używać jako dowolnego tekstu i ma wysoką kardynalność, należy ją odznaczyć.
Oblicz i zapisz statystyki podsumowujące dla każdej kolumny, aby użyć ich do skalowania cech.
Ustandaryzuj każdą kolumnę za pomocą skalowania cech.
Przeprowadź analizę cech wybranych do wykrywania stronniczości, zwracając metryki stronniczości danych i odpowiadające im wnioski. Więcej informacji zawiera temat Wykrywanie stronniczości w modelach uczenia maszynowego.
Użyj automatycznego wstrzymania danych do uczenia i pięciokrotnej walidacji krzyżowej. Więcej informacji zawiera temat Dane wstrzymania i walidacja krzyżowa.
Oblicz różne statystyki dotyczące zestawu danych ze zwiększoną pewnością. Na przykład, mogą stać się dostępne nowe informacje o rozmiarze zestawu danych, liczbie wierszy i komórek oraz proporcjach wartości null. Więcej informacji zawiera temat Ograniczenia zbioru danych szkoleniowych i profilowania.

Dowiedz się więcej

Automatyczna inżynieria cech

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię