Wykrywanie i obsługa anomalii

Wykrywanie i obsługa anomalii są zapewniane podczas korzystania z funkcji inteligentnej optymalizacji modelu. Dzięki tym możliwościom Qlik Predict może automatycznie obsługiwać wartości odstające w danych treningowych za pomocą określonego przetwarzania. Podczas trenowania dane stanowiące wartości odstające z danych treningowych nie są całkowicie usuwane, ale zamiast tego są przetwarzane przy użyciu systemu ważenia opartego na algorytmach.

Powszechne jest obserwowanie wartości odstających, czyli anomalii, w prawie każdym rodzaju danych, z którymi można pracować. Anomalie to wartości danych, które występują poza konwencjonalnie oczekiwanym zakresem. Podczas trenowania modeli uczenia maszynowego pewna część anomalii może być tolerowana, a nawet może być pożądana jako odzwierciedlenie odchyleń w świecie rzeczywistym. Jednak w skrajnych przypadkach anomalie i wartości odstające wprowadzają błąd do modelu, zmniejszając jego niezawodność i użyteczność.

Przykłady

Nie wszystkie anomalie powinny być traktowane jednakowo i nie zawsze należy je postrzegać jako elementy do usunięcia z danych. Na przykład, jeśli anomalia w danych jest naturalnie możliwym, ale rzadkim zjawiskiem, które można zaobserwować podczas zbierania danych, może mieć sens wykorzystanie jej w trenowanych modelach. Doskonałym tego przykładem są przypadki oszustw w transakcjach finansowych. Na miliony transakcji tylko kilka może być związanych z oszustwem. W zależności od problemu, który chcesz przeanalizować i rozwiązać za pomocą modelu, prawdopodobieństwo oszustwa w codziennych transakcjach może być czymś, co chciałbyś uwzględnić podczas generowania prognoz.

Przykładem anomalii, którą prawdopodobnie chciałbyś usunąć, jest niezamierzona awaria występująca podczas zbierania danych. Załóżmy na przykład, że budujesz model, który będzie używany do przewidywania wzorców pogodowych. Twój model jest trenowany na danych z czujnika monitorującego wskaźniki pogodowe, a niezwiązana z tym przerwa w dostawie prądu powoduje zebranie błędnych danych z czujnika. Te błędne dane można uznać za dane anomalne, które chciałbyś usunąć przed zakończeniem trenowania modelu.

Jak Qlik Predict obsługuje anomalie?

Wykrywanie i obsługa anomalii są wykonywane podczas trenowania modeli z inteligentną optymalizacją modelu, która jest domyślnie włączona w nowych eksperymentach.

Obsługę anomalii można ogólnie uznać za zachodzącą w dwóch oddzielnych procesach: wykrywaniu i właściwym trenowaniu modelu.

Wykrywanie anomalii

Po uruchomieniu wersji trenowania Qlik Predict wykonuje kilka kroków przed rozpoczęciem trenowania modelu. Obejmuje to klasyfikację danych, imputację wartości pustych i szereg innych procesów. Wykrywanie anomalii jest kończone na tym etapie i tylko wtedy, gdy włączona jest inteligentna optymalizacja modelu.

W ujęciu technicznym Qlik Predict wykorzystuje algorytm oparty na drzewie decyzyjnym, algorytm lasu izolacji (isolation forest), do wykrywania anomalii i wartości odstających w danych treningowych. Podczas etapu przetwarzania danych w inteligentnej optymalizacji modelu każdy punkt danych w zestawie danych (ogólnie znany jako rekord) otrzymuje ocenę anomalii i jest ważony na podstawie stopnia pewności, że jest to anomalia.

Obsługa anomalii w trenowaniu modelu

Po przetworzeniu i przekształceniu danych w razie potrzeby Qlik Predict rozpoczyna trenowanie modeli. Podczas tego procesu wygenerowane wcześniej ważone oceny anomalii są używane do dostosowania wpływu, jaki każdy wiersz ma na model. Na przykład wierszowi, w którym z dużym prawdopodobieństwem występuje anomalia, przypisuje się mniejszy wpływ na trenowanie modelu.

Ten system ważonej oceny pozwala Qlik Predict uniknąć odrzucania danych, a zamiast tego po prostu zmniejszyć wpływ, jaki dane stanowiące wartości odstające mają na model.

Kwestie do rozważenia

Pomimo możliwości wykrywania anomalii dostępnych w Qlik Predict, nie oznacza to, że do trenowania modelu wysokiej jakości można użyć dowolnych danych. Jeśli dane zawierają nietypowo duże proporcje błędnych lub uszkodzonych informacji, wykrywanie anomalii nie może naprawić wszystkich tych problemów.

W takich scenariuszach zaleca się powrót do procesu zbierania danych, aby upewnić się, że dysponujesz danymi o najwyższej jakości i najbardziej realistycznymi. Pomoże to zoptymalizować niezawodność i sukces modelu uczenia maszynowego.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię