Wykrywanie anomalii oraz ich obsługa
Wykrywanie anomalii oraz ich obsługa są dostępne podczas używania Inteligentnej optymalizacji modeli. Dzięki tym możliwościom Qlik AutoML może automatycznie obsługiwać wartości odstające w danych do uczenia przy użyciu określonego przetwarzania. Podczas uczenia dane odstające z danych do uczenia nie są całkowicie usuwane, ale zamiast tego są przetwarzane za pomocą systemu ważenia opartego na algorytmie.
Obserwowanie wartości odstających lub anomalii jest powszechne w przypadku prawie każdego rodzaju danych. Anomalie to wartości danych występujące poza konwencjonalnie oczekiwanym zakresem. Podczas uczenia modeli można tolerować pewną proporcję anomalii i mogą one być nawet pożądane jako odzwierciedlenie odchyleń w świecie rzeczywistym. W skrajnych przypadkach anomalie i wartości odstające wprowadzają jednak stronniczość do modelu, zmniejszając jego wiarygodność oraz użyteczność.
Przykłady
Nie wszystkie anomalie powinny być traktowane jednakowo i nie zawsze powinny być postrzegane jako rzeczy, które należy usuwać z danych. Na przykład, jeśli anomalia danych jest naturalnie możliwym, ale rzadkim zdarzeniem, które można zaobserwować podczas zbierania danych, sensowne może być wykorzystanie jej w uczonych modelach. Doskonałym tego przykładem są przypadki oszustw w transakcjach finansowych. Z milionów transakcji tylko garstka może być związana z oszustwem. W zależności od problemu, który chcesz analizować i rozwiązać za pomocą swojego modelu, możesz chcieć uwzględnić podczas generowania predykcji prawdopodobieństwo oszustwa w codziennych transakcjach.
Przykładem anomalii, którą prawdopodobnie warto usunąć, jest niezamierzone niepowodzenie, które pojawia się podczas zbierania danych. Na przykład powiedzmy, że budujesz model, który będzie używany do przewidywania wzorców pogodowych. Model jest uczony na danych z czujnika, który monitoruje wskaźniki pogodowe, a niepowiązana przerwa w dostawie prądu powoduje zbieranie błędnych danych z czujnika. Te wadliwe dane można uznać za anomalie, które należy usunąć przed zakończeniem uczenia modelu.
Jak Qlik AutoML postępuje z anomaliami?
Anomalie są wykrywane i obsługiwane podczas uczenia modeli z Inteligentną optymalizacją modeli, która jest włączona domyślnie w nowych eksperymentach.
Ogólnie można uznać, że obsługa anomalii odbywa się w dwóch oddzielnych procesach: wykrywanie oraz rzeczywiste uczenie modelu.
Wykrywanie anomalii
Gdy uruchomisz wersję uczenia, AutoML ukończy kilka kroków przed rozpoczęciem uczenia modelu. Obejmuje to klasyfikację danych, imputację wartości null oraz szereg innych procesów. Wykrywanie anomalii jest wykonywane na tym etapie i tylko wtedy, gdy włączono Inteligentną optymalizację modeli.
Pod względem technicznym Qlik AutoML wykorzystuje algorytm oparty na drzewie decyzyjnym — algorytm lasu izolacji, do wykrywania anomalii i wartości odstających w danych szkoleniowych. Na etapie przetwarzania danych w Inteligentnej optymalizacji modelu każdy punkt danych w zestawie danych (ogólnie znany jako rekord) ma przypisywany wynik anomalii i jest ważony na podstawie stopnia pewności, że jest to anomalia.
Obsługa anomalii w uczeniu modeli
Po przetworzeniu i transformacji danych AutoML rozpoczyna szkolenie modeli. Podczas tego procesu wygenerowane wcześniej ważone wyniki anomalii są używane do dostosowywania wpływu każdego wiersza na model. Na przykład wierszowi, który z dużym prawdopodobieństwem zawiera anomalię, przypiszemy mały wpływ na uczenie modelu.
Ten ważony system punktacji pozwala AutoML uniknąć odrzucania danych, a zamiast tego po prostu zmniejszyć wpływ, jaki dane odstające mają na model.
Uwagi
Pomimo możliwości wykrywania anomalii, które są dostępne dzięki Qlik AutoML, do uczenia modelu wysokiej jakości nie można używać dowolnych danych. Jeśli dane zawierają nietypowo duże ilości błędnych lub uszkodzonych informacji, wykrywanie anomalii nie będzie w stanie zaradzić wszystkim tym problemom.
W takich sytuacjach zaleca się powrót do procesu zbierania danych, aby uzyskać jak najbardziej realistyczne dane o najwyższej jakości. Pomoże to zoptymalizować niezawodność i skuteczność modelu uczenia maszynowego.