Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Wyciek danych

Wyciek danych oznacza, że dane używane do uczenia algorytmu uczenia maszynowego zawierają informacje, które próbujesz przewidzieć. Może to prowadzić do tego, że model będzie działał lepiej podczas uczenia niż w rzeczywistości, dając fałszywe poczucie pewności co do jakości jego działania. Dowiedz się, jak identyfikować wycieki danych i im zapobiegać, aby uzyskiwać wiarygodne predykcje.

Ogólnie rzecz biorąc, wyciek danych jest spowodowany co najmniej jednym z następujących czynników:

  • Kiedy jedną lub więcej cech w zestawie danych do uczenia można wykorzystać do wyprowadzenia zmiennej celu, którą próbujesz przewidzieć. Na przykład Twoim celem jest pole Sales, a jedną z cech jest pole Sales Tax obliczane na podstawie Sales.

  • Gdy jedna lub więcej cech w zbiorze do uczenia zawiera informacje, które nie byłyby znane w momencie przewidywania.

W poniższej tabeli kolumna Stage jest duplikatem kolumny Stage (Binary), którą chcemy przewidzieć. Uwzględniając Stage w zestawie danych do uczenia, dostarczylibyśmy odpowiedzi stanowiącej oczekiwany wynik, prowadząc do wysokiego wyniku dla naszego modelu.

Tabela z „nieszczelną kolumną” Stage, która zawiera informacje o kolumnie celu Stage (Binary)
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Wyciek danych celu

Wyciek danych celu jest formą wycieku danych. Do wycieku danych celu dochodzi, gdy dane cech odwołują się do danych celu, które można wykorzystać do prognoz. Odwołania, czyli „wycieki”, mogą być bezpośrednie lub pośrednie.

Dzięki inteligentnej optymalizacji modeli AutoML identyfikuje wycieki danych celu i zapobiega ich wprowadzaniu do modeli. Cechy wskazujące na wyciek danych celu są automatycznie wykrywane i usuwane z uczenia modelu. Więcej informacji o inteligentnej optymalizacji modelu zawiera temat Inteligentna optymalizacja modeli.

Identyfikacja wycieku danych

Aby zidentyfikować wyciek danych, rozważ pytania typu „Czy będziesz mieć te same informacje dotyczące rekordów w momencie, gdy zechcesz dokonać prognozy?” lub „Czy rekord będzie taki sam za 30 dni?”. Pamiętaj, że wszystkie dane w zestawie danych do uczenia muszą być odpowiednie dla ograniczenia czasowego w pytaniu biznesowym.

Po nauczeniu modelu możesz poszukać następujących wskazówek we wskaźnikach modelu.

  • Wysokie wyniki: czy wynik jest naprawdę wysoki? Na przykład, czy wynik F1 wynosi ponad 85?

  • Ważność cechy: czy jedna cecha jest o wiele ważniejsza niż wszystkie pozostałe?

  • Wynik danych wstrzymania: czy wynik danych wstrzymania jest znacznie niższy niż wynik walidacji krzyżowej?

W tabeli przedstawiono przykłady typowych cech, które mogą powodować wyciek danych.

Przypadek biznesowy Cel

Potencjalnie nieszczelne cechy

Czy szansa na sprzedaż zostanie wykorzystana?

Sprzedaż (Tak lub Nie)

Etap, data sprzedaży, dane do faktury, zapłacone prowizje

Predykcja kwoty przyszłej transakcji

Kwota następnej transakcji

Podatki, szczegóły zamówienia

Czy nastąpi konwersja leada na szansę sprzedaży?

Konwersja (Tak lub Nie)

Szczegóły szansy, data konwersji

Czy klient odejdzie?

Odejście (Tak lub Nie)

Powód odejścia, data odejścia, statyczny staż klienta, temperatura klienta

Czy pracownik dobrowolnie odejdzie?

Odejście (Tak lub Nie)

Szczegóły rozmowy końcowej, data odejścia, informacje o pisemnej rezygnacji

Zapobieganie wyciekom danych

Najlepszym sposobem zapobiegania wyciekom danych jest stosowanie struktury w celu uzyskania dobrego pytania biznesowego i zestawu danych. Więcej informacji zawiera temat Definiowanie pytań uczenia maszynowego.

WskazówkaW razie zidentyfikowania nieszczelnej kolumny, której nie należy używać do uczenia modelu, nadal możesz zachować ją w zestawie danych. Po prostu wyklucz tę cechę z danych do uczenia w eksperymencie uczenia maszynowego.
POWIĄZANE MATERIAŁY EDUKACYJNE:

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!