Tworzenie modeli uwzględniających czas
Dzięki uczeniu z uwzględnieniem czasu możesz budować modele, które są przystosowane do przewidywania danych względem kolumny opartej na czasie, która istnieje w Twoich danych do uczenia. Aktywuj uczenie z uwzględnieniem czasu, jeśli musisz tworzyć predykcje dla celu, o którym wiadomo, że kolumna oparta na czasie ma na niego wpływ.
Uczenie z uwzględnieniem czasu pomaga zmniejszyć wyciek danych przez zastosowanie specjalistycznego przetwarzania danych do danych do uczenia. Przetwarzanie to pozwala algorytmom uczenia maszynowego lepiej interpretować dane i kontekst predykcji jako zależny od konkretnej daty i godziny.
Aby uczyć modele uwzględniające czas, potrzebna jest kolumna w zestawie danych do uczenia, która zawiera dane daty lub znacznika czasu. Kolumna ta jest indeksem daty, który jest używany w celu sortowania zestawu danych przed uczeniem. Więcej informacji na temat indeksu dat zawiera temat Wymagania dotyczące indeksu danych..
Kiedy używać
Uczenie modeli z uwzględnieniem czasu jest idealne dla modeli, które prognozują zmiany we wskaźniku czasowym, który jest już obecny w uczeniu. Na przykład:
-
Chcesz przewidzieć sprzedaż na następny miesiąc i masz kolumnę Data transakcji w zestawie danych.
-
Chcesz przewidzieć wskaźniki dotyczące opóźnionych dostaw i masz kolumnę Data dostarczenia w zestawie danych.
Uwagi
W zależności od zastosowania uczenie modeli z uwzględnieniem czasu może pomóc w tworzeniu lepszych modeli. W innych przypadkach lepsze wyniki można uzyskać po domyślnym procesie uczenia oferowanym przez AutoML. Jeśli Twoje dane w istotnym zakresie zależą od konkretnej kolumny czasowej, zaleca się korzystanie z uczenia modelu z uwzględnieniem czasu.
W Qlik AutoML, uczenie z uwzględnieniem czasu nie wykonuje zautomatyzowanej inżynierii cech w celu generowania cech opóźnionych dla problemów szeregów czasowych. W zastosowaniach opartych na czasie, które wymagają inżynierii cech, zaleca się przeprowadzenie wszelkiej wymaganej inżynierii cech na etapie przygotowywania zestawu danych.
Jak działa uczenie z uwzględnieniem czasu?
Częstym problemem w uczeniu maszynowym jest znalezienie sposobu na upewnienie się, że modele są uczone tylko na informacjach, które byłyby dostępne w czasie uczenia. Jeśli dane do uczenia zawierają istotne informacje o datach i godzinach, mogą być używane do zapobiegania wyciekom danych.
Wymagania dotyczące indeksu danych.
Aby aktywować uczenie z uwzględnieniem czasu, musisz mieć kolumnę w zestawie danych zawierającą informacje o dacie i godzinie, od których zależy uczenie modelu. Kolumnę tę wybiera się podczas konfigurowania optymalizacji modelu dla uczenia.
Aby można było użyć kolumny jako indeksu daty podczas uczenia, kolumna musi mieć wszystkie z poniższych cech:
-
Pełne daty. Na przykład nie można używać kolumn składających się z wartości miesiąca lub dnia.
-
Typ danych daty lub znacznika czasu.
-
Typ cechy data.
Wstrzymanie i walidacja krzyżowa
Podczas wybierania sposobu rozdzielenia danych dla procesu wstrzymania i walidacji krzyżowej metody losowego wyboru mogą wprowadzić przyszłe dane do uczenia modelu. Gdy aktywujesz uczenie z uwzględnieniem czasu, AutoML zamiast tego stosuje następujący proces:
-
Zestaw danych do uczenia jest sortowany według wybranej kolumny indeksu, zanim zostanie podzielony na dane do uczenia i wstrzymania.
-
Każda iteracja uczenia wykorzystuje stały rozmiar danych do testowania oraz stopniowo rosnący rozmiar danych do uczenia. Z każdą iteracją dane stają się coraz bardziej aktualne.
Pełne informacje zawiera temat Walidacja krzyżowa oparta na czasie.
Inne przetwarzanie
Uczenie modeli z uwzględnieniem czasu wykorzystuje również inne procesy, które różnią się od domyślnych procesów uczenia. Na przykład uczenie z uwzględnieniem czasu wykorzystuje zmodyfikowany proces imputacji wartości null. Więcej informacji zawiera temat Imputacja wartości null.
Włączanie uczenia z uwzględnieniem czasu
Uczenie modelu z uwzględnieniem czasu można włączyć lub wyłączyć albo ponownie skonfigurować dla każdej wersji uruchomionej w eksperymencie.
Wykonaj następujące czynności:
-
W eksperymencie kliknij Wyświetl konfigurację.
-
Jeżeli uruchomiono już co najmniej jedną wersję eksperymentu, kliknij Nowa wersja.
-
W panelu rozwiń pozycję Optymalizacja modelu.
-
W sekcji Czasowy podział test/uczenie wybierz Indeks daty, który ma zostać użyty do sortowania danych.
Uczenie z uwzględnieniem czasu można zmienić podczas ulepszania modelu. Można na przykład wyłączyć to ustawienie lub wybrać nową kolumnę jako indeks daty. Więcej informacji zawiera temat Ulepszanie modeli.