Обнаружение и обработка аномалий
При использовании интеллектуальной оптимизации моделей предоставляется функция обнаружения и обработки аномалий. Благодаря этим возможностям Qlik AutoML может автоматически обрабатывать выбросы в данных для обучения на основе специфичности. В процессе обучения выбросы из данных для обучения не удаляются полностью, а обрабатываются с помощью системы взвешивания на основе алгоритма.
Практически на всех типах данных, с которыми приходится работать, часто наблюдаются выбросы, или аномалии. Аномалии ― это значения данных, которые выходят за пределы условно ожидаемого диапазона. При обучении моделей машинного обучения определенная доля аномалий может быть допустима и даже желательна как отражение отклонений в реальном мире. Однако в крайних случаях аномалии и выбросы вносят погрешность в модель, снижая ее надежность и полезность.
Примеры
Не ко всем аномалиям следует относиться одинаково, и не всегда их следует рассматривать как то, что нужно удалить из данных. Например, если аномалия в данных ― это естественно возможное, но нечастое явление, которое можно наблюдать при сборе данных, возможно, имеет смысл использовать ее в обучаемых моделях. Это хорошо иллюстрируют случаи мошенничества в финансовых транзакциях. Из миллионов транзакций только единицы могут быть связаны с мошенничеством. В зависимости от проблемы, которую необходимо проанализировать и решить с помощью модели, может потребоваться учитывать вероятность мошенничества в повседневных транзакциях при создании прогнозов.
Примером аномалии, которую рекомендуется удалить, является непреднамеренная ошибка, возникающая при сборе данных. Например, предположим, вы создаете модель, которая будет использоваться для прогнозирования погодных условий. Модель данных обучается на данных датчика, отслеживающего погодные показатели, и в результате не связанного с погодой отключения электричества с датчика поступают неверные данные. Эти ошибочные данные могут считаться аномалиями, которые лучше удалить до завершения обучения модели.
Как Qlik AutoML обрабатывает аномалии?
Обнаружение и обработка аномалий выполняются при обучении моделей с использованием интеллектуальной оптимизации, которая по умолчанию включена в новых экспериментах.
Обработку аномалий можно рассматривать как два отдельных процесса: обнаружение и собственно обучение модели.
Обнаружение аномалий
Когда запускается версия обучения, AutoML выполняет несколько шагов перед началом обучения модели. Это включает классификацию данных, подстановку нулевых значений и ряд других процессов. Обнаружение аномалий выполняется на этом этапе и только в том случае, если включена интеллектуальная оптимизация моделей.
Говоря техническим языком, Qlik AutoML использует алгоритм на основе дерева решений (алгоритм «изолирующий лес») для обнаружения аномалий и выбросов в данных для обучения. На этапе обработки данных при интеллектуальной оптимизации моделей каждой точке данных (обычно называемой записью) из набора данных присваивается оценка аномалии, которая взвешивается в зависимости от степени уверенности в том, что она является аномалией.
Обработка аномалий при обучении моделей
После необходимой обработки и преобразования данных AutoML приступает к обучению моделей. В ходе этого процесса взвешенные оценки аномалий, созданные ранее, используются для корректировки влияния каждой строки на модель. Например, строке, которая с высокой вероятностью содержит аномалию, назначается более низкое влияние при обучении модели.
Эта взвешенная система оценки позволяет AutoML не отбрасывать данные, а просто уменьшать влияние выбросов данных на модель.
Замечания
Несмотря на возможности обнаружения аномалий, доступные в Qlik AutoML, это не означает, что для обучения высококачественной модели можно использовать любые данные. Если данные содержат нехарактерно большую долю ошибочной или поврежденной информации, обнаружение аномалий не сможет устранить все эти проблемы.
В таких случаях рекомендуется вернуться к процессу сбора данных, чтобы получить наиболее качественные и реалистичные данные. Это поможет оптимизировать надежность и успешность модели машинного обучения.