Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Problemy z klasyfikacją

Problemy, w których kolumna docelowa jest kolumną kategorialną, nazywane są problemami związanymi z klasyfikacją. Problemy związane z klasyfikacją binarną mają dwie możliwe kategorie, takie jak Tak lub Nie, podczas gdy problemy związane z klasyfikacją wieloklasową mają więcej niż dwie możliwe kategorie.

W poniższych przykładach wyjaśniono oba rodzaje problemów związanych z klasyfikacją. Omawia się w nich również niektóre kwestie do rozważenia podczas definiowania pytania związanego z uczeniem maszynowym.

Przykład klasyfikacji binarnej Odpływ klientów

W tym przykładzie firma oferuje model oparty na subskrypcji. Zebrano dane o wszystkich byłych i obecnych klientach. Klienci zostali oznaczeni jako osoby, które anulowały subskrypcję (odeszły) lub nie.

Poniższa tabela zawiera zebrane dane. Każdy wiersz reprezentuje unikatowego klienta, a kolumny przedstawiają różne cechy opisujące tego klienta. Ostatnia kolumna to nasz cel. Jest to kolumna binarna określająca, czy klient anulował subskrypcję (Tak czy Nie).

Próbka zebranych danych

Tabela z próbką danych do uczenia.

Moglibyśmy użyć tego zestawu danych do wytrenowania algorytmu uczenia maszynowego, aby przewidywał, czy któryś z klientów odejdzie. Z tym podejściem wiążą się jednak pewne problemy:

  • Zestaw danych porównuje nowych oraz starych klientów i nie ma informacji o tym, czy klienci, którzy jeszcze nie anulowali subskrypcji, zrezygnują z niej w przyszłości.

  • Nowo pozyskani klienci mogą mieć cechy wskazujące, że mogą odejść (być może wiemy, że dwudziestokilkuletni mężczyźni, którzy nie kupują dużo w pierwszym miesiącu, mają tendencję do rezygnacji z subskrypcji wkrótce potem). Ponieważ jednak klienci są nowi i jeszcze nie anulowali subskrypcji, szkolimy algorytm uczenia maszynowego, aby powiązał te cechy z lojalnym klientem, który nie anuluje.

Aby uniknąć tych pułapek, precyzyjnie określ sposób definiowania odpływu klientów i przygotowania zestawu danych na potrzeby problemu. Zadawanie pytań biznesowych w sposób precyzyjny i odpowiedni, by można było na nie odpowiedzieć za pomocą uczenia maszynowego, to umiejętność, którą nabywa się wraz z praktyką. Na początkowym etapie pracy z uczeniem maszynowym do zastosowań biznesowych dobrze jest zapoznać się z dobrymi i złymi przykładami. Jeśli nie masz pewności, jak sformułować pytania biznesowe pod kątem uczenia maszynowego, rozważ włączenie ram czasowych do definicji wskaźników biznesowych. Ta strategia często okazuje się bardzo korzystna.

Uwzględnianie czynnika czasowego

Rozważmy uwzględnienie czasu w pytaniu. Moglibyśmy zbadać, którzy klienci zrezygnują z usług w ciągu pierwszych sześciu miesięcy. Na przykład możemy wykorzystać dane o ich zachowaniu podczas pierwszego miesiąca korzystania z subskrypcji, aby przewidzieć, czy odejdą w ciągu pierwszych sześciu miesięcy. Teraz dysponujemy precyzyjnym sposobem definiowania odpływu klientów, uwzględniającym ramy czasowe. Możemy zagregować zestaw danych następująco:

Zestaw danych zawierający czynnik czasowy

Tabela z próbką danych do uczenia.

W tym przypadku każdy wiersz reprezentuje klienta, ale teraz uwzględniamy tylko klientów, którzy byli aktywni przez co najmniej sześć miesięcy. W przypadku każdego z nich liczba zakupów i łączne wydatki w pierwszym miesiącu są wykorzystywane do przewidywania, czy odeszli po sześciu miesiącach. Dla celów tego pytania nie ma znaczenia, czy odeszli po pierwszych sześciu miesiącach. Kolumna docelowa informuje nas tylko o tym, czy anulowali subskrypcję w ciągu pierwszych sześciu miesięcy.

Mamy teraz zestaw danych do uczenia, w którym można porównywać wiersze. Po wytrenowaniu modelu na tym zestawie danych możemy wziąć dowolnego nowego klienta, który korzystał z subskrypcji przez co najmniej miesiąc, i wykorzystać jego zachowanie w ciągu pierwszego miesiąca oraz nasz wytrenowany model, aby przewidzieć, czy odejdzie w ciągu pierwszych sześciu miesięcy.

Przykład klasyfikacji wieloklasowej Płatki irysa

W tym przykładzie mamy dane dotyczące dużej próbki kwiatów irysa. Dla każdego kwiatu odnotowaliśmy długość oraz szerokość jego płatków i działek kielicha, a także gatunek irysa. W przyszłości, gdy napotkamy nowy kwiat irysa, chcielibyśmy móc przewidzieć, jaki to gatunek, na podstawie długości i szerokości jego płatków oraz działek kielicha.

Próbka zebranych danych

Tabela z próbką danych do uczenia.

Zebrane dane możemy przekazać do algorytmu uczenia maszynowego, który dopasowuje cechę do danych historycznych. Taka cecha dałaby przewidywany typ gatunku na podstawie wartości pozostałych czterech zmiennych. Danymi wyjściowymi jest kategoria z dyskretnego zestawu kategorii.

Należy pamiętać o założeniu, że dane, na podstawie których tworzymy predykcje w przyszłości, będą statystycznie przypominać dane, na których trenowaliśmy algorytm. Jeśli w zestawie danych do uczenia występują tylko trzy gatunki irysa, możemy użyć tego wytrenowanego algorytmu tylko do przewidywania kwiatów tych gatunków. Nie możemy oczekiwać, że algorytm uczenia maszynowego będzie przewidywał wzorce, których rozpoznawania nie został nauczony przy użyciu zestawu danych do uczenia.

POWIĄZANE MATERIAŁY EDUKACYJNE:

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!