Wyciek danych
Wyciek danych oznacza, że dane używane do uczenia algorytmu uczenia maszynowego zawierają informacje, które próbujesz przewidzieć. Może to prowadzić do tego, że model będzie działał lepiej podczas uczenia niż w rzeczywistości, dając fałszywe poczucie pewności co do jakości jego działania. Dowiedz się, jak identyfikować wycieki danych i im zapobiegać, aby uzyskiwać wiarygodne predykcje.
Ogólnie rzecz biorąc, wyciek danych jest spowodowany co najmniej jednym z następujących czynników:
-
Kiedy jedną lub więcej cech w zestawie danych do uczenia można wykorzystać do wyprowadzenia zmiennej celu, którą próbujesz przewidzieć. Na przykład Twoim celem jest pole Sales, a jedną z cech jest pole Sales Tax obliczane na podstawie Sales.
-
Gdy jedna lub więcej cech w zbiorze do uczenia zawiera informacje, które nie byłyby znane w momencie przewidywania.
W poniższej tabeli kolumna Stage jest duplikatem kolumny Stage (Binary), którą chcemy przewidzieć. Uwzględniając Stage w zestawie danych do uczenia, dostarczylibyśmy odpowiedzi stanowiącej oczekiwany wynik, prowadząc do wysokiego wyniku dla naszego modelu.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
Wyciek danych celu
Wyciek danych celu jest formą wycieku danych. Do wycieku danych celu dochodzi, gdy dane cech odwołują się do danych celu, które można wykorzystać do prognoz. Odwołania, czyli „wycieki”, mogą być bezpośrednie lub pośrednie.
Dzięki inteligentnej optymalizacji modeli AutoML identyfikuje wycieki danych celu i zapobiega ich wprowadzaniu do modeli. Cechy wskazujące na wyciek danych celu są automatycznie wykrywane i usuwane z uczenia modelu. Więcej informacji o inteligentnej optymalizacji modelu zawiera temat Inteligentna optymalizacja modeli.
Identyfikacja wycieku danych
Aby zidentyfikować wyciek danych, rozważ pytania typu „Czy będziesz mieć te same informacje dotyczące rekordów w momencie, gdy zechcesz dokonać prognozy?” lub „Czy rekord będzie taki sam za 30 dni?”. Pamiętaj, że wszystkie dane w zestawie danych do uczenia muszą być odpowiednie dla ograniczenia czasowego w pytaniu biznesowym.
Po nauczeniu modelu możesz poszukać następujących wskazówek we wskaźnikach modelu.
-
Wysokie wyniki: czy wynik jest naprawdę wysoki? Na przykład, czy wynik F1 wynosi ponad 85?
-
Ważność cechy: czy jedna cecha jest o wiele ważniejsza niż wszystkie pozostałe?
-
Wynik danych wstrzymania: czy wynik danych wstrzymania jest znacznie niższy niż wynik walidacji krzyżowej?
W tabeli przedstawiono przykłady typowych cech, które mogą powodować wyciek danych.
Przypadek biznesowy | Cel |
Potencjalnie nieszczelne cechy |
---|---|---|
Czy szansa na sprzedaż zostanie wykorzystana? |
Sprzedaż (Tak lub Nie) |
Etap, data sprzedaży, dane do faktury, zapłacone prowizje |
Predykcja kwoty przyszłej transakcji |
Kwota następnej transakcji |
Podatki, szczegóły zamówienia |
Czy nastąpi konwersja leada na szansę sprzedaży? |
Konwersja (Tak lub Nie) |
Szczegóły szansy, data konwersji |
Czy klient odejdzie? |
Odejście (Tak lub Nie) |
Powód odejścia, data odejścia, statyczny staż klienta, temperatura klienta |
Czy pracownik dobrowolnie odejdzie? |
Odejście (Tak lub Nie) |
Szczegóły rozmowy końcowej, data odejścia, informacje o pisemnej rezygnacji |
Zapobieganie wyciekom danych
Najlepszym sposobem zapobiegania wyciekom danych jest stosowanie struktury w celu uzyskania dobrego pytania biznesowego i zestawu danych. Więcej informacji zawiera temat Definiowanie pytań uczenia maszynowego.