Praca z prognozowaniem wielowymiarowych szeregów czasowych

Dzięki Qlik Predict możesz trenować modele uczenia maszynowego do prognozowania metryk specyficznych dla czasu. Wykorzystując metody oparte na sieciach neuronowych, modele uczą się i przewidują złożone wzorce obejmujące powiązania specyficzne dla czasu, zgrupowane dane docelowe, historyczne cechy i znane przyszłe zmienne. Aby utworzyć prognozę szeregów czasowych, przygotuj zestaw danych treningowych, użyj go w eksperymencie szeregów czasowych, wdróż model, a następnie utwórz zestawy danych do zastosowania, których możesz użyć do generowania prognoz.

Składniki problemu szeregów czasowych

W przypadku prognozowania szeregów czasowych celem jest przewidywanie wartości docelowych dla określonych dat w przyszłości. Na przykład możesz chcieć przewidzieć sprzedaż na następny tydzień, miesiąc lub kwartał.

Podczas opracowywania problemu szeregów czasowych zdefiniuj następujące składniki:

Cel i grupy
Indeks daty
Horyzont prognozy
Zmienne towarzyszące

Ta struktura opisuje, jak zdefiniować pytanie uczenia maszynowego dla problemów prognozowania szeregów czasowych. Aby zdefiniować pytania uczenia maszynowego dla problemów klasyfikacji i regresji, zobacz Definiowanie pytań uczenia maszynowego.

Kliknij, aby wyświetlić pełny rozmiar — Uproszczona ilustracja przedstawiająca składniki problemu prognozowania szeregów czasowych w Qlik Predict.

Cel

Podobnie jak w przypadku innych typów eksperymentów, cel to kolumna, dla której model ma przewidywać przyszłe wartości. W przypadku eksperymentów szeregów czasowych cel musi zawierać dane liczbowe — na przykład sprzedaż lub zapasy.

Jeśli używasz grup w prognozie szeregów czasowych, modele będą przewidywać jedną wartość docelową na grupę na krok czasowy w oknie prognozy. Jeśli nie używasz grup, wytrenowane modele będą przewidywać jedną wartość docelową dla każdego kroku czasowego w oknie prognozy.

Indeks daty

Indeks daty śledzi metryki szeregów czasowych w ciągłym przedziale czasu (kroku czasowym). Musisz zdecydować o swoim kroku czasowym na wczesnym etapie: jak często musisz przewidywać przyszłe wartości?

W szczególności indeks daty to kolumna, która pojawia się w zestawach danych treningowych i do zastosowania dla problemów szeregów czasowych. Indeks daty określa strukturę obu tych zestawów danych do zastosowania — każdy wiersz reprezentuje krok w czasie (lub, w przypadku grup, krok w czasie dla każdego unikalnego grupowania).

Po dodaniu zestawu danych treningowych w eksperymencie szeregów czasowych możliwe kolumny indeksu daty są automatycznie identyfikowane i prezentowane jako Spostrzeżenia na poziomie kolumny. Możesz je zidentyfikować na podstawie spostrzeżenia Możliwy indeks daty w widoku schematu.

Grupy

Grupy to cechy zawierające informacje kategoryczne, dla których chcesz generować prognozy oddzielnie. Klasyczne przykłady grup obejmują numer sklepu i produkt, które mogły zostać użyte do uporządkowania danych dla celu, takiego jak sprzedaż. Wybierając numer sklepu i typ produktu jako grupy, modele szeregów czasowych będą dostarczać prognozy dla każdej pojedynczej wartości w tych kolumnach. Na przykład, przy celu sprzedaży, jeśli masz trzy numery sklepów — 1, 2 i 3 — oraz dwa typy produktów — artykuły spożywcze i produkty rolne — Twój model wygeneruje prognozy sprzedaży dla każdej unikalnej kombinacji tych wartości.

Należy włączyć grupy do problemu szeregów czasowych, jeśli masz dane i potrzebujesz indywidualnych prognoz według kategorii. Kolejną zaletą grup jest to, że modele mogą uczyć się globalnie, lepiej rozumiejąc wzorce istniejące między różnymi zdefiniowanymi grupowaniami.

Możesz skonfigurować grupy do użycia dla każdej wersji eksperymentu. Jeśli nie określisz grup, ale grupy zostaną zidentyfikowane w zestawie danych treningowych, trening użyje grup.

Grupy są identyfikowane przez zduplikowane wartości w kolumnie indeksu daty — na przykład dla daty 14.01.2025 r. masz dwa rekordy: jeden dla sklepu A, a drugi dla sklepu B.

Każda grupa w eksperymencie szeregów czasowych — w tym sam cel — jest uważana za oddzielny szereg czasowy w zestawie danych. Zobacz Czym jest szereg czasowy?.

Grupy podstawowe i drugorzędne

W przypadku problemów szeregów czasowych z dwiema kolumnami grup, jedna grupa jest grupą podstawową, a druga grupą drugorzędną. Przykłady można znaleźć w Przygotowanie zestawu danych treningowych, Przykład zestawu danych treningowych — dwie grupy oraz Przykład zestawu danych zastosowania — dwie grupy.

Podstawowe grupowanie definiuje niezależne szeregi czasowe. Na przykład każdy sklep staje się własnym, oddzielnym szeregiem czasowym, co pozwala modelowi uczyć się różnych zachowań i wzorców w poszczególnych sklepach.

Drugorzędne grupowanie jest traktowane inaczej. Zamiast tworzyć w pełni oddzielne szeregi, system przestawia te wartości na dodatkowe cechy (zmienne towarzyszące), umożliwiając powiązanym podszeregom dostarczanie sobie nawzajem informacji kontekstowych.

Zazwyczaj nie musisz wiedzieć, która grupa jest podstawowa, a która drugorzędna, chociaż opcjonalnie możesz wybrać grupę podstawową w swoim eksperymencie. Pewne kwestie mają zastosowanie do przewidywania za pomocą wdrożonych modeli szeregów czasowych — zobacz Przygotowanie zestawu danych do zastosowania.

Wszystkie grupy podstawowe powinny współdzielić te same grupy drugorzędne. Na przykład, jeśli sklepy są grupami podstawowymi, a produkty są grupami drugorzędnymi, każdy sklep powinien zawierać ten sam zestaw produktów. Brakujące grupy drugorzędne doprowadziłyby do niespójnych wymiarów cech w szeregach czasowych.

Jeśli spodziewasz się, że wartości grupy drugorzędnej nie będą zgodne z wartościami grupy podstawowej w czasie przewidywania, jednym z możliwych podejść jest połączenie oryginalnych wartości grupy podstawowej i drugorzędnej w nową kolumnę grupowania i użycie jej jako grupy podstawowej podczas ponownego trenowania modelu. W tej konfiguracji model nie zależy już od grup drugorzędnych, ale skorelowane informacje między grupami mogą zostać zredukowane.

Horyzont prognozy

Horyzont prognozy określa, jak daleko w przyszłość chcesz prognozować. Horyzont prognozy składa się z okna prognozy (liczby kroków czasowych, dla których potrzebujesz prognoz) i luki prognozy (opcjonalnej liczby kroków czasowych po danych historycznych, dla których nie chcesz prognoz).

Okno prognozy i rozmiar luki ustawia się podczas konfigurowania wersji eksperymentu. Wartości te są używane zarówno podczas trenowania modelu, jak i podczas generowania prognoz z modeli wdrożonych jako wdrożenia ML.

Okno prognozy to liczba kroków czasowych, dla których chcesz przewidywać w przyszłość. Na przykład, jeśli Twój krok czasowy to jeden dzień i chcesz prognozować sprzedaż na następne dwa tygodnie, ustawisz okno prognozy na 14.

Luka prognozy to ilość czasu w przyszłości, dla której nie wymagasz prognoz. Ustawienie luki prognozy jest opcjonalne, ponieważ możesz jej potrzebować lub nie. Luka prognozy zaczyna się na końcu dostarczonych zarejestrowanych historycznych danych treningowych. Okno prognozy zaczyna się tam, gdzie kończy się luka prognozy.

Na przykład możesz chcieć przewidzieć przyszłą sprzedaż, ale interesuje Cię tylko przyszła sprzedaż dla dat późniejszych niż tydzień po zakończeniu danych wejściowych. W tym przypadku, przy kroku czasowym wynoszącym dni, możesz ustawić rozmiar luki prognozy na siedem kroków czasowych.

Wybrane okno prognozy, oprócz ilości posiadanych danych treningowych, ogranicza to, jak daleko w przyszłość możesz prognozować. Aby uzyskać więcej informacji, zobacz Maksymalne okno prognozy.

Zmienne towarzyszące

W problemach szeregów czasowych cechy są często nazywane zmiennymi towarzyszącymi. Podobnie jak w innych problemach uczenia maszynowego, zmienne towarzyszące to inne zmienne, o których podejrzewasz, że mają wpływ na wynik celu. Każda zmienna towarzysząca jest reprezentowana jako pojedyncza kolumna w zestawie danych treningowych.

W prognozowaniu szeregów czasowych istnieje kilka typów zmiennych towarzyszących i mają one pewne ważne różnice:

Statyczne zmienne towarzyszące: Kolumny, które nie zmieniają się w trakcie trwania szeregu czasowego. Statyczne zmienne towarzyszące mają zastosowanie w eksperymentach szeregów czasowych, w których używane są grupy. Załóżmy na przykład, że masz grupy dla Produktu i Numeru sklepu, a istnieje cecha Domyślny rabat. Jeśli Produkt A w Sklepie 1 ma domyślny rabat w wysokości 10%, a Produkt B w Sklepie 2 ma domyślny rabat w wysokości 20%, Domyślny rabat byłby statyczną zmienną towarzyszącą. Oznacza to, że nie zmienia się w obrębie danych dla grupy, w której występuje.

Statyczne zmienne towarzyszące są wykrywane automatycznie z historycznych cech uwzględnionych w eksperymencie. Nie musisz wskazywać, które cechy są statycznymi zmiennymi towarzyszącymi.
Przeszłe zmienne towarzyszące: Zmienne zależne od czasu, które są dostępne tylko w danych historycznych i które różnią się w tych danych. Przeszłe zmienne towarzyszące są wykrywane automatycznie z historycznych cech uwzględnionych w eksperymencie. Nie musisz jawnie wskazywać, które cechy są przeszłymi zmiennymi towarzyszącymi.
Przyszłe zmienne towarzyszące: Przyszłe zmienne towarzyszące, znane również jako przyszłe cechy, to zmienne zależne od czasu, dla których będziesz znać przyszłe wartości w horyzoncie prognozy. W przypadku korzystania z przyszłych zmiennych towarzyszących w treningu należy wskazać je jako przyszłe cechy w konfiguracji treningu.

Przyszłe cechy

Dzięki przyszłym cechom możesz dostarczyć swoim modelom dodatkowe dane o przyszłych informacjach, które już znasz lub których możesz racjonalnie oczekiwać. W szczególności masz dostęp do przyszłych wartości dla tej cechy obejmujących wybrany horyzont prognozy. Definiując przyszłe cechy, musisz podać dane historyczne, a także przyszłe.

Na przykład w przypadku modelu przewidującego metryki, na które mogą mieć wpływ przyszłe rabaty oferowane przez sklep, można uwzględnić historycznie obserwowane rabaty, a także rabaty dla przyszłych okresów w oknie prognozy. Innymi przykładami przyszłych cech mogą być informacje o pogodzie lub kalendarzu.

Inne ważne pojęcia

Ta sekcja opisuje pojęcia, które są istotne dla problemu szeregów czasowych, ale których nie konfigurujesz bezpośrednio w eksperymencie lub wdrożeniu ML. Są to właściwości zdefiniowane przez Twoje dane lub przez inne właściwości, które konfigurujesz dla modelu.

Kroki czasowe

Krok czasowy jest definiowany przez zestaw danych treningowych i jest ważny zarówno dla treningu, jak i prognoz.

W zestawie danych treningowych krok czasowy to interwał, w którym rejestrowane są dane w indeksie daty. Na przykład krok czasowy może być dzienny, co godzinę, co minutę lub co sekundę. Najmniejszy wykryty krok czasowy to milisekundy.

Ważne jest, aby zdawać sobie sprawę z kroku czasowego używanego w danych treningowych. Inne definiowane parametry eksperymentu, takie jak okno prognozy i rozmiar luki prognozy, będą podążać za tym interwałem kroku czasowego.

Po wdrożeniu modelu dane do zastosowania, dla których chcesz utworzyć prognozy, będą musiały podążać za tym samym krokiem czasowym, co zdefiniowany w zestawie danych treningowych.

Jakość

Po wybraniu zestawu danych treningowych system wnioskuje o używanym kroku czasowym. Jeśli w indeksie daty brakuje pewnych wartości lub występują luki, kolumny takie jak cel, grupy i zmienne towarzyszące mogą być często automatycznie interpolowane przez system. Powtarzające się wzorce luk spowodowane brakującymi wartościami są obsługiwane automatycznie i same w sobie nie wprowadzają nowego kroku czasowego. Jeśli jednak dane zawierają naprawdę mieszane interwały rejestrowania do tego stopnia, że wykrywane są różne natywne kroki czasowe, dane muszą zostać najpierw naprawione. Na przykład, jeśli masz kilkumiesięczne dane rejestrowane raz dziennie, ale istnieje sekcja, w której dane są konsekwentnie rejestrowane co tydzień, zestawu danych nie można użyć, ponieważ zostanie wykrytych wiele kroków czasowych.

Okno zastosowania

Okno zastosowania, czyli okres wsteczny, to część danych treningowych, której algorytm może użyć do dostarczenia prognoz dla określonego okna prognozy.

Okno zastosowania jest obliczane i ustawiane przez system. Jest mierzone w krokach czasowych. Okno zastosowania jest definiowane przez to, co ustawisz jako okno prognozy i lukę (horyzont prognozy). Rozmiar okna zastosowania jest wyświetlany w panelu konfiguracji eksperymentu i w Podsumowaniu treningu modelu po uruchomieniu co najmniej jednej wersji eksperymentu. Jest on również wyświetlany w Schemacie modelu wdrożenia ML podczas tworzenia lub edytowania konfiguracji prognozowania wsadowego.

Okno zastosowania jest identyfikowane automatycznie na podstawie konfiguracji treningu. Aby wygenerować prognozy dla danego okna prognozy, musisz podać dane historyczne obejmujące co najmniej okno zastosowania. Są one podane w zestawie danych do zastosowania. Zobacz Przygotowanie zestawu danych do zastosowania.

Maksymalne okno prognozy

Maksymalne okno prognozy jest szacowane podczas konfigurowania eksperymentu szeregów czasowych. Po uruchomieniu wersji treningu maksymalne okno prognozy jest potwierdzane z całą pewnością. Maksymalne okno prognozy jest wyświetlane jako Szacowana maksymalna prognoza lub Maksymalna prognoza w sekcji Na podstawie Twoich danych po otwarciu opcji Cel i typ eksperymentu w panelu konfiguracji eksperymentu. Maksymalne okno prognozy to maksymalna liczba kroków czasowych, dla których można generować prognozy, biorąc pod uwagę wybrane okno prognozy, ilość dostarczonych danych historycznych i minimalny rozmiar próby oczekiwany przez system. Im więcej danych historycznych podasz, tym dalej w czasie będziesz w stanie przewidywać. Jednak aby wygenerować wiarygodne prognozy, ważne jest, aby wybrać rozsądne okno prognozy.

Maksymalne okno prognozy może wynosić do 180 kroków czasowych.

Czas odcięcia prognozy

Czas odcięcia prognozy jest szczególnie ważny podczas definiowania zestawu danych do zastosowania podczas prognozowania. Czas odcięcia prognozy to ostatnia data w próbie, dla której masz wartość docelową. Zasadniczo daty po tym czasie odcięcia to daty, dla których chcesz wygenerować prognozy.

Czym jest szereg czasowy?

W prognozowaniu szeregów czasowych Qlik Predict każda grupa — w tym sam cel — jest uważana za oddzielny szereg czasowy w zestawie danych treningowych. Załóżmy na przykład, że zestaw danych treningowych zawiera metryki sprzedaży. Te metryki sprzedaży są zdefiniowane dla każdego sklepu i typu produktu. Z kolumnami Sklep i Typ produktu zdefiniowanymi jako grupy, w zestawie danych treningowych znajdują się trzy szeregi czasowe.

Przygotowanie zestawu danych treningowych

W przypadku prognoz wielowymiarowych szeregów czasowych zestaw danych treningowych musi zawierać następujące kolumny:

Indeks daty
Kolumna celu
Kolumny grup (opcjonalnie)
Kolumny cech (opcjonalnie — bez cech trenujesz jednowymiarowy model prognozowania)

Kolumna indeksu daty

Potrzebujesz indeksu daty zawierającego pełne daty lub znaczniki czasu. Ta kolumna jest indeksem chronologicznym, wzdłuż którego śledzone są metryki celu i zmiennych towarzyszących. Kolumna indeksu daty organizuje pomiary oparte na czasie sekwencyjnie wzdłuż spójnego interwału czasowego (kroku czasowego).

Kolumna indeksu daty jest zorganizowana w następujący sposób, w zależności od tego, czy używasz grup, czy nie:

Brak grup: Pojedynczy rekord dla każdego kroku czasowego. Na przykład w przypadku prognozy dziennej każdy wiersz reprezentuje jeden dzień.
Z grupami: Jeden lub więcej zduplikowanych wpisów dla każdego kroku czasowego w zależności od użytych grup.

W przypadku wielowymiarowego zestawu danych treningowych będzie jeden lub więcej zduplikowanych wpisów dla każdego kroku czasowego w zależności od użytych grup. Istnieje elastyczność w używanym kroku czasowym — możesz na przykład rejestrować daty raz lub więcej razy dziennie, co tydzień lub co miesiąc i tak dalej.

Brakujące lub niespójnie zarejestrowane wartości w tej kolumnie są czasami dopuszczalne, jeśli można je interpolować, a powtarzające się wzorce luk w brakujących wartościach są obsługiwane automatycznie. Jednak wartości indeksu daty nie mogą zawierać wielu różnych natywnych kroków czasowych. Na przykład, jeśli interwał zostanie określony jako raz dziennie, ale w pewnym momencie zostanie zidentyfikowany interwał dwa razy dziennie, podczas treningu wystąpi błąd.

Kolumna celu i kolumny grup

Zestaw danych musi mieć kolumnę celu zawierającą metrykę liczbową, którą chcesz prognozować. Częstym przykładem jest sprzedaż.

Jeśli używasz grup, podajesz historyczne wartości docelowe dla każdej możliwej wartości w dodanych grupach. Na przykład, jeśli Twoim celem jest Sprzedaż i dodasz grupę Numer sklepu, która zawiera dane dla Sklepu A i Sklepu B, Twój zestaw danych musi zawierać dwa oddzielne rekordy dla każdego kroku czasowego: jeden z wartością sprzedaży dla Sklepu A, a drugi z wartością sprzedaży dla Sklepu B.

Jeśli masz dwie grupy, upewnij się, że wszystkie grupy podstawowe współdzielą te same grupy drugorzędne. Zobacz Grupy podstawowe i drugorzędne.

Kolumny cech

Możesz wytrenować model szeregów czasowych bez żadnych zmiennych towarzyszących. Jeśli jednak uwzględnisz zmienne towarzyszące, podaj kolumnę w zestawie danych dla każdej cechy. Dane cech powinny być na ogół danymi zarejestrowanymi historycznie, chyba że dodajesz przyszłe cechy. Kolumny przyszłych cech mogą zawierać zarówno dane historyczne, jak i przyszłe. Dane przyszłych cech należy uwzględniać w zestawie danych treningowych tylko wtedy, gdy masz pewność, że przyszłe wartości tych kolumn będą znane podczas tworzenia prognoz.

Śledź, których cech użyjesz jako przyszłych cech, ponieważ będziesz musiał wybrać je jako takie w konfiguracji treningu.

Wolumen danych

Zestaw danych musi zawierać wystarczającą liczbę rekordów — wolumen danych jest określany przez zakres czasu współdzielony przez wszystkie grupy. Do trenowania eksperymentu używane są tylko dane z tego nakładającego się okresu.

Wolumen danych historycznych odgrywa rolę w określaniu, jak daleko w przyszłość możesz przewidywać. Pożądane okno prognozy wpływa również na to, ile danych historycznych potrzebujesz.

Ogólnie rzecz biorąc, więcej danych historycznych jest lepsze niż mniej. Jednak dane muszą być dobrej jakości i uchwycić pożądane trendy. Jeśli dane dostarczają nieistotnych informacji lub zawierają nieścisłości, posiadanie ich w modelu nie jest pomocne. Rozważ równowagę między optymalizacją wolumenu a utrzymaniem jakości i trafności.

Przykłady

Poniższa tabela to skrócony przykład zestawu danych treningowych, który nie używa żadnych grup.

W tym przykładzie:

Chcemy przewidzieć dwa tygodnie dziennej sprzedaży bez luki. Zauważ, że ten pożądany horyzont prognozy i rozmiar luki nie są oznaczone bezpośrednio w danych treningowych, ale dostarczamy wystarczającą liczbę rekordów, aby ten horyzont prognozy mógł zostać użyty w konfiguracji.
Date to indeks daty z krokiem czasowym wynoszącym 1 dzień.
Sales to cel, śledzący całkowitą dzienną sprzedaż.
Transactions Per Hour śledzi zaokrągloną średnią liczbę transakcji, które miały miejsce w ciągu godziny. Jest to przeszła zmienna towarzysząca, zawierająca tylko dane historyczne. Informacje te nie będą znane w przyszłości.
On Promotion śledzi, ile produktów jest przecenionych po stawkach promocyjnych dla określonej daty. Może być używana jako przyszła cecha, ponieważ w tym przypadku rabaty są znane i planowane z wyprzedzeniem. W tym przypadku podajemy tylko dane historyczne (przeszłe).

Skrócony przykład zestawu danych treningowych, który nie zawiera kolumn grup
ID	Date	On Promotion	Transactions per Hour	Sales
1	1/1/2024	0	301	90010.01
2	1/2/2024	100	291	19491.65
3	1/3/2024	0	163	70001.87
4	1/4/2024	14	499	50240.33
5	1/5/2024	55	211	106943.00
6	1/6/2024	2	309	131492.59
7	1/7/2024	1341	300	46349.49
8	1/8/2024	0	432	88203.08
9	1/9/2024	0	104	40254.95
10	1/10/2024	150	495	45964.44
11	1/11/2024	65	204	90185.50
12	1/12/2024	12	252	76340.25
13	1/13/2024	70	99	71311.11
14	1/14/2024	5	305	50396.70
...	...	...	...	...
610	9/1/2025	158	168	104205.33

Poniższa tabela to skrócony przykład zestawu danych treningowych, który używa dwóch kolumn grup.

W tym przykładzie:

Chcemy przewidzieć dwa tygodnie dziennej sprzedaży bez luki. Zauważ, że ten pożądany rozmiar horyzontu prognozy nie jest oznaczony bezpośrednio w danych treningowych, ale dostarczamy wystarczającą liczbę rekordów, aby ten horyzont prognozy mógł zostać użyty w konfiguracji.
Date to indeks daty z krokiem czasowym wynoszącym 1 dzień.
Sales to cel, śledzący całkowitą dzienną sprzedaż.
Store i Product to grupy. Dla każdego unikalnego kroku czasowego w danych treningowych uwzględniono oddzielne wiersze dla każdego sklepu i produktu.

W tym kontekście Store jest grupą podstawową, a Product jest grupą drugorzędną.
Transactions Per Hour śledzi średnią liczbę transakcji, które mają miejsce w ciągu godziny, dla każdego sklepu i produktu. Jest to przeszła zmienna towarzysząca, zawierająca tylko dane historyczne. Informacje te nie będą znane w przyszłości.
On Promotion śledzi, ile produktów jest przecenionych po stawkach promocyjnych dla określonej daty, dla każdego sklepu i produktu. Może być używana jako przyszła cecha, ponieważ w tym przypadku rabaty są znane i planowane z wyprzedzeniem. W tym przypadku podajemy tylko dane historyczne (przeszłe).

Skrócony przykład zestawu danych treningowych, który zawiera dwie grupy
Date	Store	Product	On Promotion	Transactions per Hour	Sales
1/1/2024	Store 1	A	0	343	90010.01
1/1/2024	Store 2	A	100	545	19491.65
1/1/2024	Store 3	A	0	1004	70001.87
1/1/2024	Store 1	B	14	305	39522.11
1/1/2024	Store 2	B	55	700	91859.30
1/1/2024	Store 3	B	2	94	19583.55
1/1/2024	Store 1	C	1341	267	194863.00
1/1/2024	Store 2	C	0	630	140244.13
1/1/2024	Store 3	C	0	1143	76666.66
1/2/2024	Store 1	A	56	576	30593.55
1/2/2024	Store 2	A	3	403	10549.33
1/2/2024	Store 3	A	14	1303	100003.33
1/2/2024	Store 1	B	29	593	105893.99
1/2/2024	Store 2	B	100	305	80195.22
1/2/2024	Store 3	B	0	305	61051.13
1/2/2024	Store 1	C	5	105	55938.38
1/2/2024	Store 2	C	33	72	104823.33
1/2/2024	Store 3	C	15	1052	99105.99
1/3/2024	Store 1	A	5	521	130533.31
1/3/2024	Store 2	A	1	205	67676.73
1/3/2024	Store 3	A	36	302	52745.45
1/3/2024	Store 1	B	111	502	99642.10
1/3/2024	Store 2	B	350	693	34660.34
1/3/2024	Store 3	B	34	200	60345.44
1/3/2024	Store 1	C	93	205	44603.33
1/3/2024	Store 2	C	60	295	105844.44
1/3/2024	Store 3	C	10	76	150385.44
...	...	...	...	...	...
9/10/2025	Store 1	A	15	1058	159383.33
9/10/2025	Store 2	A	20	402	80119.11
9/10/2025	Store 3	A	20	191	106020.00
9/10/2025	Store 1	B	39	100	39581.34
9/10/2025	Store 2	B	109	190	76939.23
9/10/2025	Store 3	B	37	99	49548.42
9/10/2025	Store 1	C	75	1555	93150.77
9/10/2025	Store 2	C	190	1603	15923.49
9/10/2025	Store 3	C	0	403	159342.05

Przygotowanie zestawu danych do zastosowania

Po wdrożeniu modelu szeregów czasowych musisz opracować zestaw danych do zastosowania, dla którego będą dokonywane prognozy.

Zestaw danych do zastosowania — Wymagania i walidacja

W przypadku modeli szeregów czasowych zestaw danych do zastosowania wymaga:

Kolumny i nagłówki kolumn dla wszystkich kolumn uwzględnionych w zbiorze danych treningowych.
Taki sam krok czasowy jak w zbiorze danych treningowych.
Wszystkie grupy i wartości grup, które były obecne w zbiorze danych treningowych.

InformacjaJeśli w zbiorze danych zastosowania obecne są nowe wartości grup (które nie były obecne w danych treningowych), predykcje dla tych wierszy nie są generowane. Jeśli wymagane są predykcje dla tych nowych wartości grup, zaleca się ponowne wytrenowanie modelu przy użyciu danych treningowych, które je uwzględniają.
Informacja
W czasie predykcji lub w zbiorze danych zastosowania brakujące wartości grup są obsługiwane w następujący sposób:
- Brak wartości grupy podstawowej — na których trenowany jest model — jest dozwolony.
- Brakujące wartości grupy dodatkowej nie są dozwolone. Predykcja kończy się błędem.
Najlepiej jest gromadzić i dostarczać wszystkie dane grupy dodatkowej podczas predykcji, gdy tylko jest to możliwe. Jeśli jednak przewiduje się, że grup dodatkowych będzie brakować głównie w czasie predykcji, jednym z możliwych rozwiązań jest całkowite unikanie korzystania z grup dodatkowych.

Zamiast tego można połączyć oryginalne wartości grupy podstawowej i dodatkowej w jedną nową kolumnę grupującą, użyć jej jako nowej grupy podstawowej i ponownie wytrenować model w oparciu o tę strukturę. W tej konfiguracji nowy model zależy tylko od nowo wprowadzonych grup podstawowych.

Kompromis polega na tym, że można utracić część skorelowanych informacji między grupami, ponieważ będą one teraz traktowane jako w pełni oddzielne szeregi czasowe, a nie powiązane podszeregi dostarczające sobie nawzajem informacji kontekstowych.
Tyle samo lub więcej historycznych rekordów danych (na cel i grupę) przed czasem odcięcia prognozy, co liczba rekordów w oknie zastosowania dla modelu. Muszą to być pełne rekordy zawierające historycznie zaobserwowaną datę lub znacznik czasu, cel oraz wartości zmiennych towarzyszących. Okno zastosowania jest określane przez okno prognozy i lukę skonfigurowane podczas trenowania — im dalej w przyszłość musisz przewidywać, tym więcej danych historycznych potrzebujesz w zbiorze danych zastosowania, aby uruchomić predykcje.
Rekordy dla wszystkich przyszłych kroków czasowych w horyzoncie prognozy. W przypadku tych przyszłych rekordów należy uwzględnić tylko wartości dla kolumny indeksu daty, a także wszelkie przyszłe cechy. Pozostaw wartości dla pozostałych kolumn puste.

Większość wymagań dotyczących danych historycznych dla zestawu danych zastosowania ma na celu określenie minimalnych akceptowalnych wolumenów danych. Zawsze można podać więcej niż potrzeba. Gdy model generuje predykcje, używane są tylko rekordy potrzebne do pokrycia okna zastosowania.

Przykłady

Załóżmy, że masz model szeregów czasowych skonfigurowany w następujący sposób:

Cel: Sales
Brak grup
Indeks daty: Date
Krok czasowy: 1 dzień
Okno prognozy wynoszące 7 dni i luka prognozy wynosząca 14 dni. W związku z tym horyzont prognozy wynosi 21 dni.
Czas odcięcia prognozy to 1 września 2025 r. Jest to ostatnia data, dla której dostarczono dane historyczne.
Zmienna towarzysząca z przeszłości Transactions Per Hour, która śledzi średnią liczbę transakcji, które miały miejsce w ciągu godziny.
Zmienna towarzysząca z przyszłości On Promotion, która śledzi, ile produktów jest przecenionych po stawkach promocyjnych w określonym dniu.

W tym przykładzie zakłada się, że zdefiniowane przez system okno zastosowania wynosi 63 dni. Oprócz 63 dni danych historycznych (od 1 lipca 2025 r. do 1 września 2025 r.) zestaw danych dostarcza dane zmiennych towarzyszących z przyszłości dla 21-dniowego horyzontu prognozy (od 2 do 22 września 2025 r.).

Pełny przykład zestawu danych zastosowania dla modelu trenowanego bez grup
ID	Date	On Promotion	Transactions per Hour	Sales
548	7/1/2025	0	343	90010.01
549	7/2/2025	100	545	19491.65
550	7/3/2025	0	1004	70001.87
551	7/4/2025	14	305	39522.11
552	7/5/2025	55	700	91859.30
553	7/6/2025	2	94	19583.55
554	7/7/2025	1341	267	194863.00
555	7/8/2025	0	630	140244.13
556	7/9/2025	0	1143	76666.66
557	7/10/2025	56	576	30593.55
558	7/11/2025	3	403	10549.33
559	7/12/2025	14	1303	100003.33
560	7/13/2025	29	593	105893.99
561	7/14/2025	100	305	80195.22
562	7/15/2025	0	305	61051.13
563	7/16/2025	5	105	55938.38
564	7/17/2025	33	72	104823.33
565	7/18/2025	15	1052	99105.99
566	7/19/2025	5	521	130533.31
567	7/20/2025	1	205	67676.73
568	7/21/2025	36	302	52745.45
569	7/22/2025	111	502	99642.10
570	7/23/2025	350	693	34660.34
571	7/24/2025	34	200	60345.44
572	7/25/2025	93	205	44603.33
573	7/26/2025	60	295	105844.44
574	7/27/2025	10	76	150385.44
575	7/28/2025	402	473	40963.10
576	7/29/2025	15	1058	159383.33
577	7/30/2025	20	402	80119.11
578	7/31/2025	20	191	106020.00
579	8/1/2025	39	100	39581.34
580	8/2/2025	109	190	76939.23
581	8/3/2025	37	99	49548.42
582	8/4/2025	75	1555	93150.77
583	8/5/2025	190	1603	15923.49
584	8/6/2025	0	403	159342.05
585	8/7/2025	32	430	20451.33
586	8/8/2025	436	1000	150314.44
587	8/9/2025	1	1532	15923.91
588	8/10/2025	40	99	15944.10
589	8/11/2025	42	1058	60000.01
590	8/12/2025	25	734	39583.55
591	8/13/2025	1	569	150333.65
592	8/14/2025	305	692	124594.13
593	8/15/2025	11	164	59303.13
594	8/16/2025	60	205	150333.31
595	8/17/2025	70	186	103483.53
596	8/18/2025	25	1483	105038.13
597	8/19/2025	30	999	201857.11
598	8/20/2025	30	1533	35439.33
599	8/21/2025	30	1583	51956.24
600	8/22/2025	0	350	55334.30
601	8/23/2025	33	1509	11111.12
602	8/24/2025	145	74	15493.33
603	8/25/2025	33	140	159334.14
604	8/26/2025	59	884	45603.39
605	8/27/2025	65	239	46593.34
606	8/28/2025	16	502	74747.74
607	8/29/2025	17	158	45491.34
608	8/30/2025	15	1693	34503.11
609	8/31/2025	36	1544	159334.13
610	9/1/2025	62	1999	193803.15
611	9/2/2025	45	-	-
612	9/3/2025	32	-	-
613	9/4/2025	52	-	-
614	9/5/2025	10	-	-
615	9/6/2025	0	-	-
616	9/7/2025	13	-	-
617	9/8/2025	99	-	-
618	9/9/2025	14	-	-
619	9/10/2025	56	-	-
620	9/11/2025	32	-	-
621	9/12/2025	13	-	-
622	9/13/2025	15	-	-
623	9/14/2025	70	-	-
624	9/15/2025	71	-	-
625	9/16/2025	17	-	-
626	9/17/2025	3	-	-
627	9/18/2025	0	-	-
628	9/19/2025	32	-	-
629	9/20/2025	4	-	-
630	9/21/2025	15	-	-
631	9/22/2025	0	-	-

Załóżmy, że masz model szeregów czasowych skonfigurowany w następujący sposób:

Cel: Sales
Indeks daty: Date
Krok czasowy: 1 dzień
Store i Product to grupy. W tym kontekście Store jest grupą podstawową, a Product jest grupą drugorzędną.
Okno prognozy wynoszące 3 dni i luka prognozy wynosząca 1 dzień. W związku z tym horyzont prognozy wynosi 4 dni.
Czas odcięcia prognozy to 1 września 2025 r. Jest to ostatnia data, dla której dostarczono dane historyczne.
Zmienna towarzysząca z przeszłości Transactions Per Hour, która śledzi średnią liczbę transakcji, które mają miejsce w ciągu godziny, dla każdego sklepu i produktu.
Zmienna towarzysząca z przyszłości On Promotion, która śledzi, ile produktów jest przecenionych po stawkach promocyjnych w określonym dniu, dla każdego sklepu i produktu.

W tym przykładzie zakłada się, że zdefiniowane przez system okno zastosowania wynosi 12 dni. Oprócz 12 dni danych historycznych (od 21 sierpnia do 1 września 2025 r.) zestaw danych dostarcza dane zmiennych towarzyszących z przyszłości dla 4-dniowego horyzontu prognozy (od 2 do 5 września 2025 r.).

Pełny przykład zestawu danych zastosowania dla modelu trenowanego z dwiema grupami
Date	Store	Product	On Promotion	Transactions per Hour	Sales
8/21/2025	Store 1	A	0	343	90010.01
8/21/2025	Store 2	A	100	545	19491.65
8/21/2025	Store 3	A	0	1004	70001.87
8/21/2025	Store 1	B	14	305	39522.11
8/21/2025	Store 2	B	55	700	91859.30
8/21/2025	Store 3	B	2	94	19583.55
8/21/2025	Store 1	C	1341	267	194863.00
8/21/2025	Store 2	C	0	630	140244.13
8/21/2025	Store 3	C	0	1143	76666.66
8/22/2025	Store 1	A	56	576	30593.55
8/22/2025	Store 2	A	3	403	10549.33
8/22/2025	Store 3	A	14	1303	100003.33
8/22/2025	Store 1	B	29	593	105893.99
8/22/2025	Store 2	B	100	305	80195.22
8/22/2025	Store 3	B	0	305	61051.13
8/22/2025	Store 1	C	5	105	55938.38
8/22/2025	Store 2	C	33	72	104823.33
8/22/2025	Store 3	C	15	1052	99105.99
8/23/2025	Store 1	A	5	521	130533.31
8/23/2025	Store 2	A	1	205	67676.73
8/23/2025	Store 3	A	36	302	52745.45
8/23/2025	Store 1	B	111	502	99642.10
8/23/2025	Store 2	B	350	693	34660.34
8/23/2025	Store 3	B	34	200	60345.44
8/23/2025	Store 1	C	93	205	44603.33
8/23/2025	Store 2	C	60	295	105844.44
8/23/2025	Store 3	C	10	76	150385.44
8/24/2025	Store 1	A	402	473	80195.22
8/24/2025	Store 2	A	15	1058	61051.13
8/24/2025	Store 3	A	20	402	55938.38
8/24/2025	Store 1	B	20	191	104823.33
8/24/2025	Store 2	B	39	100	11111.12
8/24/2025	Store 3	B	109	190	15493.33
8/24/2025	Store 1	C	37	99	159334.14
8/24/2025	Store 2	C	75	1555	45603.39
8/24/2025	Store 3	C	190	1603	19491.65
8/25/2025	Store 1	A	0	403	70001.87
8/25/2025	Store 2	A	32	430	45642.25
8/25/2025	Store 3	A	436	1000	25633.19
8/25/2025	Store 1	B	1	1532	19191.31
8/25/2025	Store 2	B	40	99	90010.01
8/25/2025	Store 3	B	42	1058	19491.65
8/25/2025	Store 1	C	25	734	70001.87
8/25/2025	Store 2	C	1	569	39522.11
8/25/2025	Store 3	C	305	692	91859.30
8/26/2025	Store 1	A	11	164	19583.55
8/26/2025	Store 2	A	60	205	194863.00
8/26/2025	Store 3	A	70	186	140244.13
8/26/2025	Store 1	B	25	1483	76666.66
8/26/2025	Store 2	B	30	999	30593.55
8/26/2025	Store 3	B	30	1533	10549.33
8/26/2025	Store 1	C	30	1583	100003.33
8/26/2025	Store 2	C	0	350	105893.99
8/26/2025	Store 3	C	33	1509	80195.22
8/27/2025	Store 1	A	145	74	61051.13
8/27/2025	Store 2	A	33	140	55938.38
8/27/2025	Store 3	A	59	884	104823.33
8/27/2025	Store 1	B	65	239	99105.99
8/27/2025	Store 2	B	16	502	130533.31
8/27/2025	Store 3	B	17	158	67676.73
8/27/2025	Store 1	C	15	1693	52745.45
8/27/2025	Store 2	C	36	1544	99642.10
8/27/2025	Store 3	C	62	1999	34660.34
8/28/2025	Store 1	A	45	343	60345.44
8/28/2025	Store 2	A	32	545	44603.33
8/28/2025	Store 3	A	52	1004	105844.44
8/28/2025	Store 1	B	10	305	150385.44
8/28/2025	Store 2	B	0	700	40963.10
8/28/2025	Store 3	B	13	94	159383.33
8/28/2025	Store 1	C	99	267	80119.11
8/28/2025	Store 2	C	14	630	106020.00
8/28/2025	Store 3	C	56	1143	39581.34
8/29/2025	Store 1	A	32	576	76939.23
8/29/2025	Store 2	A	13	403	49548.42
8/29/2025	Store 3	A	15	1303	93150.77
8/29/2025	Store 1	B	70	593	15923.49
8/29/2025	Store 2	B	71	305	159342.05
8/29/2025	Store 3	B	17	305	20451.33
8/29/2025	Store 1	C	3	105	150314.44
8/29/2025	Store 2	C	0	72	15923.91
8/29/2025	Store 3	C	32	1052	15944.10
8/30/2025	Store 1	A	4	521	60000.01
8/30/2025	Store 2	A	15	205	39583.55
8/30/2025	Store 3	A	0	302	150333.65
8/30/2025	Store 1	B	15	502	124594.13
8/30/2025	Store 2	B	20	693	59303.13
8/30/2025	Store 3	B	20	200	150333.31
8/30/2025	Store 1	C	39	205	103483.53
8/30/2025	Store 2	C	109	295	105038.13
8/30/2025	Store 3	C	37	76	201857.11
8/31/2025	Store 1	A	75	1058	35439.33
8/31/2025	Store 2	A	190	402	51956.24
8/31/2025	Store 3	A	0	191	55334.30
8/31/2025	Store 1	B	0	100	11111.12
8/31/2025	Store 2	B	100	190	15493.33
8/31/2025	Store 3	B	0	99	159334.14
8/31/2025	Store 1	C	14	1555	45603.39
8/31/2025	Store 2	C	55	1603	46593.34
8/31/2025	Store 3	C	2	403	74747.74
9/1/2025	Store 1	A	1341	158	45491.34
9/1/2025	Store 2	A	0	1693	34503.11
9/1/2025	Store 3	A	0	1544	159334.13
9/1/2025	Store 1	B	56	1999	193803.15
9/1/2025	Store 2	B	3	343	76666.66
9/1/2025	Store 3	B	14	545	30593.55
9/1/2025	Store 1	C	29	303	10549.33
9/1/2025	Store 2	C	100	154	100003.33
9/1/2025	Store 3	C	0	531	34351.42
9/2/2025	Store 1	A	5	-	-
9/2/2025	Store 2	A	33	-	-
9/2/2025	Store 3	A	15	-	-
9/2/2025	Store 1	B	5	-	-
9/2/2025	Store 2	B	1	-	-
9/2/2025	Store 3	B	36	-	-
9/2/2025	Store 1	C	111	-	-
9/2/2025	Store 2	C	350	-	-
9/2/2025	Store 3	C	34	-	-
9/3/2025	Store 1	A	93	-	-
9/3/2025	Store 2	A	60	-	-
9/3/2025	Store 3	A	10	-	-
9/3/2025	Store 1	B	465	-	-
9/3/2025	Store 2	B	22	-	-
9/3/2025	Store 3	B	249	-	-
9/3/2025	Store 1	C	50	-	-
9/3/2025	Store 2	C	15	-	-
9/3/2025	Store 3	C	25	-	-
9/4/2025	Store 1	A	1	-	-
9/4/2025	Store 2	A	0	-	-
9/4/2025	Store 3	A	112	-	-
9/4/2025	Store 1	B	50	-	-
9/4/2025	Store 2	B	75	-	-
9/4/2025	Store 3	B	130	-	-
9/4/2025	Store 1	C	139	-	-
9/4/2025	Store 2	C	136	-	-
9/4/2025	Store 3	C	168	-	-
9/5/2025	Store 1	A	155	-	-
9/5/2025	Store 2	A	73	-	-
9/5/2025	Store 3	A	19	-	-
9/5/2025	Store 1	B	103	-	-
9/5/2025	Store 2	B	54	-	-
9/5/2025	Store 3	B	23	-	-
9/5/2025	Store 1	C	24	-	-
9/5/2025	Store 2	C	134	-	-
9/5/2025	Store 3	C	193	-	-

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię