Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Definiowanie pytań uczenia maszynowego

Przekształcenie przypadku biznesowego w konkretne i praktyczne pytanie uczenia maszynowego może być trudne. Postępuj zgodnie ze strukturą, aby uniknąć typowych pułapek i wygenerować dobry model predykcyjny.

Struktura opisuje, jak zdefiniować pytanie uczenia maszynowego i jak zebrać dobrze ustrukturyzowany zestaw danych, który będzie gotowy do użycia. Więcej informacji na temat przygotowywania zestawu danych zawiera temat Przygotowywanie zestawu danych do uczenia.

Struktura składa się z czterech części:

  • Zdarzenie wyzwalające

  • Cel

  • Cechy

  • Punkt predykcji

Zdarzenie wyzwalające

Zdarzenie wyzwalające to działanie lub zdarzenie, które wyzwala tworzenie nowych predykcji. Każde zdarzenie wyzwalające odpowiada pojedynczemu wierszowi danych.

Cel

Cel to wartość, którą próbujesz przewidzieć. Musi być konkretny zarówno pod względem sposobu definiowania wartości (wyniku), jak i ram czasowych, w których wartość jest określana (horyzontu). Zdefiniowanie wyniku i horyzontu zależy od kontekstu biznesowego oraz dostępnych danych. Upewnij się, czy cel jest adekwatny do kontekstu biznesowego, i zastanów się, jakie działanie chcesz podjąć z przewidywanymi wartościami.

Cel jest reprezentowany w pojedynczej kolumnie w zestawie danych używanym do uczenia algorytmów uczenia maszynowego.

Cechy

Cechy to pozostałe kolumny w zestawie danych, które służą do predykcji wartości celu. Są to Twoje hipotezy dotyczące tego, które zmienne będą wpływać na cel. Algorytmy uczenia maszynowego wykorzystują te cechy do uczenia się ogólnych wzorców i do dokonywania predykcji dla nowych wierszy danych.

Kolumny cech stanowią większość zestawu danych do uczenia, w którym każda cecha jest reprezentowana jako pojedyncza kolumna. Cechy muszą być zagregowane do poziomu zdarzenia wyzwalającego lub wyższego.

Cechy mogą być stałe, co oznacza, że są znane w momencie zdarzenia wyzwalającego lub przed nim, albo zależne od okresu, co oznacza, że dane są zbierane po zdarzeniu wyzwalającym, ale przed punktem predykcji.

Punkt predykcji

Punkt predykcji to wyznaczony czas, w którym przestaje się zbierać dane dotyczące cech i przewiduje się cel dla każdego wiersza. Decydowanie o tym, gdzie powinien znaleźć się punkt predykcji, polega na znalezieniu równowagi między dokładnością — przewidywaniu na tyle późno, aby zebrać dane wysokiej jakości o cechach — a możliwością podejmowania działań — przewidywaniu na tyle wcześnie, by zdążyć podjąć działania mające wpływ na wynik.

Czas między zdarzeniem wyzwalającym a punktem predykcji to okres akumulacji danych. Jest to czas wykorzystywany na zbieranie danych o cechach. Czas między punktem predykcji a horyzontem to okres działania, czyli czas wykorzystywany do działania względem wyników predykcji. Punkt predykcji może znajdować się w dowolnym miejscu między zdarzeniem wyzwalającym a horyzontem docelowym.

Przykłady: Ramy strukturalne

Poniższe przykłady pokazują, jak ramy strukturalne mogą być używane w różnych przypadkach biznesowych. Szczegółowy przykład zastosowania struktury krok po kroku można znaleźć w temacie Stosowanie ram strukturalnych: Przykład z odpływem klientów.

Wartość całkowita klienta

  • Zdarzenie wyzwalające: Klient składa pierwsze zamówienie

  • Cel: Całkowita kwota zamówień z pierwszych trzech lat

    • Wynik liczbowy: Kwota w dolarach

    • Horyzont bazuje na średniej długości cyklu życia klienta

  • Cechy: Źródło leada, Kwota pierwszego zamówienia, Rabat zastosowany przy pierwszym zamówieniu (Tak lub Nie), Stan wysyłki, Region wysyłki, Liczba produktów w pierwszym zamówieniu

  • Punkt predykcji: Trzy miesiące po pierwszym zamówieniu

  • Pytanie dotyczące uczenia maszynowego: „Przewidywanie w trzy miesiące po pierwszym zamówieniu klienta, jaka będzie łączna wartość zamówień w ciągu następnych 33 miesięcy”

Kolejny zakup klienta

  • Zdarzenie wyzwalające: Klient składa zamówienie

  • Cel: Kolejne zamówienie składane jest w ciągu sześciu miesięcy

    • Wynik binarny: Tak lub nie

    • Horyzont określony na podstawie danych, z których wynika, że 90 procent klientów, którzy dokonują ponownego zakupu, robi to w ciągu maksymalnie sześciu miesięcy

  • Cechy: Źródło ruchu, Liczba poprzednich zamówień, Wykorzystany rabat, Stan wysyłki, Region wysyłki, Liczba zamówionych produktów, Otwarta wiadomość e-mail z powiadomieniem o wysyłce (Tak lub Nie), Powrót do witryny w ciągu 10 dni, Rejestracja w celu otrzymywania e-maili marketingowych (Tak lub Nie)

  • Punkt predykcji: Tydzień po zamówieniu

  • Pytanie dotyczące uczenia maszynowego: „Przewidywanie w tydzień po złożeniu zamówienia przez klienta, czy zamówi on coś ponownie w ciągu sześciu miesięcy”

Konwersja leada

  • Zdarzenie wyzwalające: Tworzony jest lead sprzedażowy

  • Cel: Konwersja na zawarcie transakcji w ciągu 12 miesięcy od utworzenia

    • Wynik binarny: Tak lub nie

    • Horyzont oparty na historycznej długości cyklu sprzedaży

  • Cechy: Źródło leada, Branża, Wielkość firmy, Liczba kontaktów w ciągu pierwszych 30 dni, Spotkanie zaplanowane w ciągu 30 dni (Tak lub Nie), Dokładny numer telefonu (Tak lub Nie)

  • Punkt predykcji: 30 dni po utworzeniu leada

  • Pytanie dotyczące uczenia maszynowego: „Przewidywanie, czy po 30 dniach od utworzenia leada ten lead dokona konwersji na zawarcie transakcji w ciągu następnych 11 miesięcy”

Ukończenie studiów

  • Zdarzenie wyzwalające: Student zostaje przyjęty

  • Cel: Student zostaje absolwentem w ciągu sześciu lat od rozpoczęcia studiów

    • Wynik binarny: Tak lub nie

    • Horyzont opiera się na historycznej długości czasu do ukończenia studiów

  • Cechy: Typ szkoły średniej, Średnia ocen w szkole średniej, Wynik matury, Wyniki egzaminu kwalifikacyjnego, Odległość od szkoły średniej do uczelni, Poziom stypendium, Poziom wykształcenia rodziców, Średnia ocen w pierwszym semestrze, Liczba punktów w pierwszym semestrze

  • Punkt predykcji: Koniec pierwszego semestru po przyjęciu na studia

  • Pytanie dotyczące uczenia maszynowego: „Przewidywanie na koniec pierwszego semestru, czy student ukończy studia do końca szóstego roku"

Sprzedaż według miesięcy

  • Zdarzenie wyzwalające: Pierwszy dzień miesiąca

  • Cel: Sprzedaż w jednostkach w ciągu miesiąca

    • Wynik liczbowy: Liczba sprzedanych jednostek

    • Horyzont jest oparty na miesiącu kalendarzowym

  • Cechy: Typ produktu, Nazwa miesiąca, Kwartał, Sprzedaż w tym samym miesiącu w zeszłym roku, Sprzedaż w tym samym miesiącu dwa lata wcześniej, Sprzedaż w poprzednim miesiącu, Średni procent rabatu, Wydatki na marketing

  • Punkt predykcji: Pierwszy dzień miesiąca

  • Pytanie dotyczące uczenia maszynowego: „Przewidywanie pierwszego dnia miesiąca, jaka będzie całkowita sprzedaż jednostkowa do końca tego miesiąca”

POWIĄZANE MATERIAŁY EDUKACYJNE:

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!