Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Problemy związane z regresją

Problemy związane z regresją to problemy uczenia maszynowego z liczbową kolumną celu. Poniższy przykład pokazuje, jak precyzyjnie sformułować pytanie biznesowe, a następnie zagregować zestaw danych do uczenia, w którym wszystkie cechy są tak samo ważne. Stanowi to dobrą podstawę do generowania predykcyjnego modelu regresji.

Przykład regresji: Wartość całkowita klienta

Wychodzimy od założenia, że model uczenia maszynowego uczony na historycznych danych klientów nauczy się przewidywać całkowitą wartość klienta przy użyciu kilku cech, które wpływają na tę predykcję. Gromadzimy zestaw danych z historycznymi informacjami o wszystkich byłych i obecnych klientach. Każdemu klientowi odpowiada jeden wiersz, a kolumny przedstawiają cechy opisujące klienta: identyfikator klienta, płeć, wiek, datę, kiedy został klientem, kod pocztowy, liczbę dokonanych zakupów i łączne wydatki.

Próbka zebranych danych

Tabela z próbką danych do uczenia.

Moglibyśmy zdefiniować całkowitą wartość klienta jako łączne wydatki, przekazać zestaw danych do algorytmu uczenia maszynowego i nauczyć go przewidywania całkowitych wydatków. W miarę pozyskiwania nowych klientów w przyszłości możemy użyć nauczonego algorytmu do przewidywania, jaką wartość pieniężną zapewnią oni w swoim cyklu życia. Z tym podejściem wiąże się jednak kilka problemów:

  • Zestaw danych może obejmować osoby, które są lub były klientami przez jeden dzień, miesiąc lub rok. Wartość łącznych wydatków nie odzwierciedla tego, ile klient wyda w przyszłości, tylko łączną kwotę, jaką wydał do tej pory.

  • Klient, którego konto ma jeden dzień, może mieć cechy klienta o wysokim zwrocie. Ponieważ jednak został klientem dopiero wczoraj, dokonał tylko jednego zakupu i nie wydał dużo pieniędzy. Umieszczając takich klientów w zestawie danych do uczenia, błędnie uczymy algorytm uczenia maszynowego, że są to klienci, którzy nie przynoszą dużych dochodów.

  • Być może mamy nowego klienta, który w pierwszym miesiącu zamawiał produkty trzy razy w tygodniu, dokonując łącznie 12 zakupów. Ktoś inny, kto był klientem przez rok i kupował raz w miesiącu, mógł wydać taką samą kwotę. Algorytm uczenia maszynowego uznałby tych dwóch klientów za równorzędnych pod względem wartości całkowitej, podczas gdy w rzeczywistości klient mający jeden miesiąc może być znacznie bardziej wartościowy w dłuższej perspektywie.

Aby uniknąć tych pułapek, musimy dokładnie określić, jak zdefiniować wartość całkowitą klienta i jak przygotować zestaw danych do rozwiązania problemu. Dobrym sposobem na to jest uwzględnienie czynnika czasu w definicji problemu.

Uwzględnianie czynnika czasu

Aby uwzględnić czynnik czasu, zaczynamy od zdefiniowania wartości w pierwszym roku jako całkowitej kwoty pieniędzy, które klient wydaje w pierwszym roku. Moglibyśmy następnie wykorzystać zachowanie klienta w ciągu pierwszych trzech miesięcy jako cechy do predykcji całkowitych wydatków w pierwszym roku. Wartość w pierwszym roku to precyzyjna definicja interesującego nas wskaźnika, która obejmuje ramy czasowe. Zaletą tak precyzyjnie zdefiniowanego wskaźnika jest to, że wszystkie przykłady z naszego zestawu danych do uczenia stają się równie istotne.

Ponieważ teraz patrzymy na łączną kwotę pieniędzy wydaną w ciągu pierwszego roku przez klientów, musimy ograniczyć zestaw danych do uczenia do klientów, którzy istnieją od co najmniej roku. Możemy przygotować następujący zestaw danych:

Zestaw danych zawierający czynnik czasu

Tabela z próbką danych do uczenia.

Każdy wiersz reprezentuje tutaj osobę będącą klientem od co najmniej roku. Kolumny zawierają cechy opisujące klienta w momencie, gdy stał się klientem, a także cechy, które reprezentują aktywność klienta w wybranym przedziale czasowym.

Aktywność jest mierzona liczbą zakupów dokonanych w ciągu pierwszych trzech miesięcy i łącznymi wydatkami w ciągu pierwszych trzech miesięcy. Kolumna celu przedstawia łączną kwotę wydaną w pierwszym roku. Jest to wartość w pierwszym roku, której przewidywania nauczymy algorytm uczenia maszynowego.

Zauważ, że zadajemy teraz bardzo precyzyjne pytanie, które jest określone w ramach czasowych: „Przewidź, ile pieniędzy klient przyniesie w ciągu pierwszego roku, na podstawie jego zachowania w ciągu pierwszych trzech miesięcy”.

POWIĄZANE MATERIAŁY EDUKACYJNE:

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!