Wyciek danych
Wyciek danych oznacza, że dane używane do uczenia algorytmu uczenia maszynowego zawierają informacje, które próbujesz przewidzieć. Może to prowadzić do tego, że model będzie działał lepiej podczas uczenia niż w rzeczywistości, dając fałszywe poczucie pewności co do jakości jego działania. Dowiedz się, jak identyfikować wycieki danych i im zapobiegać, aby uzyskiwać wiarygodne predykcje.
Istnieją dwie formy wycieku danych:
-
Kiedy jedną lub więcej cech w zestawie danych do uczenia można wykorzystać do wyprowadzenia zmiennej celu, którą próbujesz przewidzieć.
-
Gdy jedna lub więcej cech w zbiorze do uczenia zawiera informacje, które nie byłyby znane w momencie przewidywania.
W poniższej tabeli kolumna Stage jest duplikatem kolumny Stage (Binary), którą chcemy przewidzieć. Uwzględniając Stage w zestawie danych do uczenia, dostarczylibyśmy odpowiedzi stanowiącej oczekiwany wynik, prowadząc do wysokiego wyniku dla naszego modelu.
Identyfikacja wycieku danych
Aby zidentyfikować wyciek danych, rozważ pytania typu „Czy będziesz mieć te same informacje dotyczące rekordów w momencie, gdy zechcesz dokonać prognozy?” lub „Czy rekord będzie taki sam za 30 dni?”. Pamiętaj, że wszystkie dane w zestawie danych do uczenia muszą być odpowiednie dla ograniczenia czasowego w pytaniu biznesowym.
Po nauczeniu modelu możesz poszukać następujących wskazówek we wskaźnikach modelu.
-
Wysokie wyniki: Czy wynik jest naprawdę wysoki? Na przykład, czy wynik F1 wynosi ponad 85?
-
Ważność cech: Czy jedna cecha jest o wiele ważniejsza niż wszystkie pozostałe?
-
Wynik danych wstrzymania: Czy wynik danych wstrzymania jest znacznie niższy niż wynik walidacji krzyżowej?
W tabeli przedstawiono przykłady typowych cech, które mogą powodować wyciek danych.
Przypadek biznesowy | Cel |
Potencjalnie nieszczelne cechy |
---|---|---|
Czy szansa na sprzedaż zostanie wykorzystana? |
Sprzedaż (Tak lub Nie) |
Etap, data sprzedaży, dane do faktury, zapłacone prowizje |
Predykcja kwoty przyszłej transakcji |
Kwota następnej transakcji |
Podatki, szczegóły zamówienia |
Czy nastąpi konwersja leada na szansę sprzedaży? |
Konwersja (Tak lub Nie) |
Szczegóły szansy, data konwersji |
Czy klient odejdzie? |
Odejście (Tak lub Nie) |
Powód odejścia, data odejścia, statyczny staż klienta, temperatura klienta |
Czy pracownik dobrowolnie odejdzie? |
Odejście (Tak lub Nie) |
Szczegóły rozmowy końcowej, data odejścia, informacje o pisemnej rezygnacji |
Zapobieganie wyciekom danych
Najlepszym sposobem zapobiegania wyciekom danych jest stosowanie struktury w celu uzyskania dobrego pytania biznesowego i zestawu danych. Więcej informacji zawiera temat Definiowanie pytań uczenia maszynowego.