Wyciek danych

Wyciek danych oznacza, że dane używane do uczenia algorytmu uczenia maszynowego zawierają informacje, które próbujesz przewidzieć. Może to prowadzić do tego, że model będzie działał lepiej podczas uczenia niż w rzeczywistości, dając fałszywe poczucie pewności co do jakości jego działania. Dowiedz się, jak identyfikować wycieki danych i im zapobiegać, aby uzyskiwać wiarygodne predykcje.

Ogólnie rzecz biorąc, wyciek danych jest spowodowany co najmniej jednym z następujących czynników:

Kiedy jedną lub więcej cech w zestawie danych do uczenia można wykorzystać do wyprowadzenia zmiennej celu, którą próbujesz przewidzieć. Na przykład Twoim celem jest pole Sales, a jedną z cech jest pole Sales Tax obliczane na podstawie Sales.
Gdy jedna lub więcej cech w zbiorze do uczenia zawiera informacje, które nie byłyby znane w momencie przewidywania.

W poniższej tabeli kolumna Stage jest duplikatem kolumny Stage (Binary), którą chcemy przewidzieć. Uwzględniając Stage w zestawie danych do uczenia, dostarczylibyśmy odpowiedzi stanowiącej oczekiwany wynik, prowadząc do wysokiego wyniku dla naszego modelu.

Tabela z „nieszczelną kolumną” Stage, która zawiera informacje o kolumnie celu Stage (Binary)
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Wyciek danych celu

Wyciek danych celu jest formą wycieku danych. Do wycieku danych celu dochodzi, gdy dane cech odwołują się do danych celu, które można wykorzystać do prognoz. Odwołania, czyli „wycieki”, mogą być bezpośrednie lub pośrednie.

Dzięki inteligentnej optymalizacji modeli AutoML identyfikuje wycieki danych celu i zapobiega ich wprowadzaniu do modeli. Cechy wskazujące na wyciek danych celu są automatycznie wykrywane i usuwane z uczenia modelu. Więcej informacji o inteligentnej optymalizacji modelu zawiera temat Inteligentna optymalizacja modeli.

Identyfikacja wycieku danych

Aby zidentyfikować wyciek danych, rozważ pytania typu „Czy będziesz mieć te same informacje dotyczące rekordów w momencie, gdy zechcesz dokonać prognozy?” lub „Czy rekord będzie taki sam za 30 dni?”. Pamiętaj, że wszystkie dane w zestawie danych do uczenia muszą być odpowiednie dla ograniczenia czasowego w pytaniu biznesowym.

Po nauczeniu modelu możesz poszukać następujących wskazówek we wskaźnikach modelu.

Wysokie wyniki: czy wynik jest naprawdę wysoki? Na przykład, czy wynik F1 wynosi ponad 85?
Ważność cechy: czy jedna cecha jest o wiele ważniejsza niż wszystkie pozostałe?
Wynik danych wstrzymania: czy wynik danych wstrzymania jest znacznie niższy niż wynik walidacji krzyżowej?

W tabeli przedstawiono przykłady typowych cech, które mogą powodować wyciek danych.

Przypadek biznesowy	Cel	Potencjalnie nieszczelne cechy
Czy szansa na sprzedaż zostanie wykorzystana?	Sprzedaż (Tak lub Nie)	Etap, data sprzedaży, dane do faktury, zapłacone prowizje
Predykcja kwoty przyszłej transakcji	Kwota następnej transakcji	Podatki, szczegóły zamówienia
Czy nastąpi konwersja leada na szansę sprzedaży?	Konwersja (Tak lub Nie)	Szczegóły szansy, data konwersji
Czy klient odejdzie?	Odejście (Tak lub Nie)	Powód odejścia, data odejścia, statyczny staż klienta, temperatura klienta
Czy pracownik dobrowolnie odejdzie?	Odejście (Tak lub Nie)	Szczegóły rozmowy końcowej, data odejścia, informacje o pisemnej rezygnacji

Zapobieganie wyciekom danych

Najlepszym sposobem zapobiegania wyciekom danych jest stosowanie struktury w celu uzyskania dobrego pytania biznesowego i zestawu danych. Więcej informacji zawiera temat Definiowanie pytań uczenia maszynowego.

W razie zidentyfikowania nieszczelnej kolumny, której nie należy używać do uczenia modelu, nadal możesz zachować ją w zestawie danych. Po prostu wyklucz tę cechę z danych do uczenia w eksperymencie uczenia maszynowego.

POWIĄZANE MATERIAŁY EDUKACYJNE:

Analiza rozpoznawcza danych

Dowiedz się więcej

Analiza rozpoznawcza danych

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!

Przekaż tu opinię