Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Wyciek danych

Wyciek danych oznacza, że dane używane do uczenia algorytmu uczenia maszynowego zawierają informacje, które próbujesz przewidzieć. Może to prowadzić do tego, że model będzie działał lepiej podczas uczenia niż w rzeczywistości, dając fałszywe poczucie pewności co do jakości jego działania. Dowiedz się, jak identyfikować wycieki danych i im zapobiegać, aby uzyskiwać wiarygodne predykcje.

Istnieją dwie formy wycieku danych:

  • Kiedy jedną lub więcej cech w zestawie danych do uczenia można wykorzystać do wyprowadzenia zmiennej celu, którą próbujesz przewidzieć.

  • Gdy jedna lub więcej cech w zbiorze do uczenia zawiera informacje, które nie byłyby znane w momencie przewidywania.

W poniższej tabeli kolumna Stage jest duplikatem kolumny Stage (Binary), którą chcemy przewidzieć. Uwzględniając Stage w zestawie danych do uczenia, dostarczylibyśmy odpowiedzi stanowiącej oczekiwany wynik, prowadząc do wysokiego wyniku dla naszego modelu.

Tabela z „nieszczelną kolumną” Stage, która zawiera informacje o kolumnie celu Stage (Binary)

Tabela z danymi przykładowymi.

Identyfikacja wycieku danych

Aby zidentyfikować wyciek danych, rozważ pytania typu „Czy będziesz mieć te same informacje dotyczące rekordów w momencie, gdy zechcesz dokonać prognozy?” lub „Czy rekord będzie taki sam za 30 dni?”. Pamiętaj, że wszystkie dane w zestawie danych do uczenia muszą być odpowiednie dla ograniczenia czasowego w pytaniu biznesowym.

Po nauczeniu modelu możesz poszukać następujących wskazówek we wskaźnikach modelu.

  • Wysokie wyniki: Czy wynik jest naprawdę wysoki? Na przykład, czy wynik F1 wynosi ponad 85?

  • Ważność cech: Czy jedna cecha jest o wiele ważniejsza niż wszystkie pozostałe?

  • Wynik danych wstrzymania: Czy wynik danych wstrzymania jest znacznie niższy niż wynik walidacji krzyżowej?

W tabeli przedstawiono przykłady typowych cech, które mogą powodować wyciek danych.

Przypadek biznesowy Cel

Potencjalnie nieszczelne cechy

Czy szansa na sprzedaż zostanie wykorzystana?

Sprzedaż (Tak lub Nie)

Etap, data sprzedaży, dane do faktury, zapłacone prowizje

Predykcja kwoty przyszłej transakcji

Kwota następnej transakcji

Podatki, szczegóły zamówienia

Czy nastąpi konwersja leada na szansę sprzedaży?

Konwersja (Tak lub Nie)

Szczegóły szansy, data konwersji

Czy klient odejdzie?

Odejście (Tak lub Nie)

Powód odejścia, data odejścia, statyczny staż klienta, temperatura klienta

Czy pracownik dobrowolnie odejdzie?

Odejście (Tak lub Nie)

Szczegóły rozmowy końcowej, data odejścia, informacje o pisemnej rezygnacji

Zapobieganie wyciekom danych

Najlepszym sposobem zapobiegania wyciekom danych jest stosowanie struktury w celu uzyskania dobrego pytania biznesowego i zestawu danych. Więcej informacji zawiera temat Definiowanie pytań uczenia maszynowego.

WskazówkaW razie zidentyfikowania nieszczelnej kolumny, której nie należy używać do uczenia modelu, nadal możesz zachować ją w zestawie danych. Po prostu wyklucz tę cechę z danych do uczenia w eksperymencie uczenia maszynowego.
POWIĄZANE MATERIAŁY EDUKACYJNE:

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!