Przygotowanie zestawu danych do trenowania

Trenujesz zestaw danych, aby odpowiedzieć na pytanie dotyczące uczenia maszynowego. Zestaw danych treningowych zawiera kolumnę dla każdej cechy, a także kolumnę zawierającą cel. Algorytmy uczenia maszynowego uczą się ogólnych wzorców z tych wierszy danych, aby wygenerować model, który może przewidzieć cel.

Aby przygotować zestaw danych do uczenia maszynowego, musisz zrozumieć swoje dane i zebrać niezbędne punkty danych. Może być również konieczne przekształcenie niektórych danych i usunięcie danych, które nie są istotne dla Twojego przypadku użycia.

Jakie dane należy zbierać?

Precyzyjnie zdefiniuj pytanie dotyczące uczenia maszynowego i zdecyduj dokładnie, co należy zagregować, aby do niego podejść:

Jeśli chcesz przewidzieć, którzy klienci odejdą, musisz zagregować zestaw danych, w którym każdy wiersz reprezentuje klienta, każda kolumna cechy reprezentuje cechę opisującą tego klienta, a kolumna celu określa, czy ten klient odszedł w określonym czasie.
Jeśli chcesz przewidzieć, jaka będzie sprzedaż w danym miesiącu i regionie, musisz zagregować zestaw danych, w którym każdy wiersz reprezentuje dany miesiąc dla danego regionu, każda kolumna cechy reprezentuje cechę opisującą działalność w tym miesiącu w tym regionie, a kolumna celu to przychody ze sprzedaży dla tego regionu w tym miesiącu.

Spróbuj dowiedzieć się, jakie rzeczy mogą wpłynąć na cel i sprawdź, czy można zebrać te dane. Pamiętaj, że algorytmy predykcyjne mogą identyfikować tylko te wzorce, które można znaleźć. Być może musisz zebrać lub utworzyć dodatkowe cechy, aby wyodrębnić dodatkowe informacje?

Musisz również określić, ile danych musisz zgromadzić, zanim będziesz w stanie dokładnie przewidywać. Ile czasu musi upłynąć, zanim zdarzenie stanie się reprezentatywne? Rozważ następujące przykłady:

Klienci muszą być członkami przez 60 dni, zanim będzie można przewidzieć, czy odejdą do 90. dnia.
Koszt roszczeń ubezpieczeniowych nie będzie znany przez kilka miesięcy, więc możesz wykluczyć roszczenia mające mniej niż sześć miesięcy.

Odróżniaj dane zmienne w czasie od danych niezmiennych w czasie. W przypadku danych zmiennych w czasie, czy dane są opatrzone znacznikiem czasu, aby można je było odpowiednio zagregować?

Czy dane będą dostępne w momencie przewidywania?

Upewnij się, że wszystkie cechy uwzględnione w zestawie danych treningowych będą dostępne również dla przyszłych prognoz. Częstym błędem jest trenowanie modelu na cechach, które są dostępne dla danych historycznych, ale nie będą dostępne w momencie dokonywania prognozy w przyszłości. Podczas dokonywania prognoz na nowych danych algorytm uczenia maszynowego musi mieć wartości dla wszystkich cech, które były dostępne w zestawie danych treningowych.

Czy więcej danych to lepiej?

Rozmiar próby

Większa ilość danych zazwyczaj pozwala na tworzenie bardziej niezawodnych modeli. Wszelkie dodatkowe istotne punkty danych będą pomocne, niezależnie od tego, czy są to nowe, czy historyczne obserwacje.

Liczba cech

Kuszące może być uwzględnienie w modelu wszystkich możliwych zmiennych, bez względu na ich znaczenie dla docelowego wyniku. Prostsze jest zazwyczaj lepsze. Z reguły lepiej jest użyć mniejszej liczby cech w modelu.

Gdy cech jest więcej, istnieje większe ryzyko potencjalnego zatarcia prawdziwej relacji, którą chcesz odkryć. Model predykcyjny może wykorzystać wszystkie cechy, aby wymyślić serię skomplikowanych reguł, które dobrze sprawdzają się w odniesieniu do danych użytych do trenowania modelu. Jednak na przewidywany cel może w rzeczywistości wpływać tylko jedna lub dwie cechy. Model może nie być dobry w uogólnianiu na dane spoza tych, które zostały użyte w trenowaniu, co skutkowałoby słabą wydajnością predykcyjną po zastosowaniu do nowych danych.

Przeuczenie

Przeuczenie oznacza, że model jest zbyt złożony i w rezultacie jest niewiarygodny w przewidywaniu nowych danych. Przeuczenie ma tendencję do występowania, gdy jest zbyt wiele cech w stosunku do liczby dostępnych punktów danych. Na przykład w zestawie danych może znajdować się tylko 50 wierszy danych i 100 kolumn cech.

Czy Twoje dane treningowe są odpowiednie?

Algorytm uczenia maszynowego znajduje wzorce w dostarczanych mu danych i wykorzystuje je do tworzenia prognoz na danych w przyszłości. Kiedy dokonujesz prognoz na nowych danych, zakładasz, że są one podobne do danych treningowych. Z tego powodu ważne jest, aby zestaw danych treningowych statystycznie przypominał dane, na których będziesz dokonywać prognoz.

Jeśli rynek lub firma uległy znacznej zmianie w stosunku do tego, co opisuje zestaw danych treningowych, prawdopodobnie używasz nieaktualnego zestawu danych, który doprowadzi do niedokładnych prognoz. Może być konieczne utworzenie nowego zestawu danych treningowych i użycie tylko tych danych, które zostały zebrane po wystąpieniu zmiany.

Rozważ przykład dotyczący prognoz sprzedaży w Zrozumienie uczenia maszynowego. Załóżmy, że wprowadziliśmy do naszego algorytmu dane, które reprezentowały wydatki na reklamę w telewizji, radiu i gazetach, a także przychody ze sprzedaży w historycznych kwartałach biznesowych. Jednak dane te zostały zebrane w latach 80. Obecnie nie reklamujemy już tego produktu w radiu i reklamujemy go prawie wyłącznie w Internecie. Nasz wytrenowany algorytm słabo radziłby sobie z przewidywaniem sprzedaży w bieżącym kwartale biznesowym, ponieważ dane treningowe nie są reprezentatywne dla obecnej działalności.

Eksploracja danych

Wykorzystaj swoją wiedzę biznesową, aby zrozumieć i zweryfikować dane. Jeśli dane nie są zgodne z Twoimi założeniami, czy może to oznaczać problemy z danymi, czy też może to oznaczać, że Twoje założenia są błędne?

Usuwanie niewiarygodnych cech

Rozważ wykluczenie z zestawu danych kolumn, w których:

Występuje wysoka koncentracja jednej wartości (niska kardynalność). Na przykład kolumna z wartościami „czerwony”, „zielony”, „niebieski”, w której 90 procent wartości to „czerwony”.
Wartości są wysoce unikalne (wysoka kardynalność).
Większość wartości to wartości puste (null).

Rozwiązywanie problemu skorelowanych cech

Usuń nadmiarowe cechy, takie jak wysoce skorelowane cechy, które dostarczają tych samych lub bardzo podobnych informacji. Rozważ wybranie pojedynczej cechy z grup, które wydają się uchwycić te same zachowania w danych. Spróbuj ustalić, czy jedna cecha napędza drugą.

Zastępowanie wartości pustych (null)

Zbadaj swoje dane, aby dowiedzieć się, czy brakuje wartości w kluczowych punktach danych, takich jak cel lub kluczowe cechy. Aby użyć wartości z rzadkiej kolumny, możesz zastąpić wartości puste (null) wartością „inne” lub „nieznane”. A może musisz ponownie ocenić proces zbierania danych.

Zakres celu

Spójrz na rozkład danych. Jeśli rozkład danych docelowych jest zbyt rozproszony w stosunku do rozmiaru próby, znalezienie jakiegokolwiek wzorca w danych może być trudne.

Jaki jest zakres wartości danych? Istnieją pewne wyzwania związane z przewidywaniem wartości danych poza zakresem. Przeczytaj więcej w Ekstrapolacja i interpolacja.

Czy w rozkładzie występują nieprawidłowości? Skośność, ogony i wielomodalne kształty w danych mogą wymagać dodatkowej transformacji danych lub dalszej inżynierii cech. Spróbuj pogrupować kategorie o małej objętości i zaokrąglić lub usunąć ogony w cechach numerycznych.

Eliminacja wartości odstających

Rozważ usunięcie obserwacji z wartościami odstającymi w kolumnach cech. Wartości odstające mogą utrudniać algorytmowi dostrzeganie ogólnych wzorców w danych. Lepszym rozwiązaniem może być przyjrzenie się mniejszemu podzbiorowi danych, który ma węższy rozrzut w kolumnie celu.

Grupowanie danych

Możesz poprawić swoje wyniki, dzieląc dane na różne zestawy danych i używając ich do trenowania oddzielnych modeli. Oprzyj grupowanie danych na jednej lub kilku cechach.

Wyciek danych

Wyciek danych oznacza, że dane użyte do trenowania algorytmu uczenia maszynowego zawierają informacje, które próbujesz przewidzieć.

POWIĄZANE MATERIAŁY EDUKACYJNE:

Czym jest Qlik Predict

Dowiedz się więcej

Czym jest Qlik Predict

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię