Перейти к основному содержимому Перейти к дополнительному содержимому

Обнаружение и обработка аномалий

При использовании интеллектуальной оптимизации моделей предоставляется функция обнаружения и обработки аномалий. Благодаря этим возможностям Qlik Predict может автоматически обрабатывать выбросы в обучающих данных, используя специальные виды обработки. В процессе обучения выбросы из данных для обучения не удаляются полностью, а обрабатываются с помощью системы взвешивания на основе алгоритма.

Практически на всех типах данных, с которыми приходится работать, часто наблюдаются выбросы, или аномалии. Аномалии ― это значения данных, которые выходят за пределы условно ожидаемого диапазона. При обучении моделей машинного обучения определенная доля аномалий может быть допустима и даже желательна как отражение отклонений в реальном мире. Однако в крайних случаях аномалии и выбросы вносят погрешность в модель, снижая ее надежность и полезность.

Примеры

Не ко всем аномалиям следует относиться одинаково, и не всегда их следует рассматривать как то, что нужно удалить из данных. Например, если аномалия в данных ― это естественно возможное, но нечастое явление, которое можно наблюдать при сборе данных, возможно, имеет смысл использовать ее в обучаемых моделях. Это хорошо иллюстрируют случаи мошенничества в финансовых транзакциях. Из миллионов транзакций только единицы могут быть связаны с мошенничеством. В зависимости от проблемы, которую необходимо проанализировать и решить с помощью модели, может потребоваться учитывать вероятность мошенничества в повседневных транзакциях при создании прогнозов.

Примером аномалии, которую рекомендуется удалить, является непреднамеренная ошибка, возникающая при сборе данных. Например, предположим, вы создаете модель, которая будет использоваться для прогнозирования погодных условий. Модель данных обучается на данных датчика, отслеживающего погодные показатели, и в результате не связанного с погодой отключения электричества с датчика поступают неверные данные. Эти ошибочные данные могут считаться аномалиями, которые лучше удалить до завершения обучения модели.

Как Qlik Predict обрабатывает аномалии?

Обнаружение и обработка аномалий выполняются при обучении моделей с использованием интеллектуальной оптимизации, которая по умолчанию включена в новых экспериментах.

Обработку аномалий можно рассматривать как два отдельных процесса: обнаружение и собственно обучение модели.

Обнаружение аномалий

Когда запускается версия обучения, Qlik Predict выполняет несколько шагов перед началом обучения модели. Это включает классификацию данных, подстановку нулевых значений и ряд других процессов. Обнаружение аномалий выполняется на этом этапе и только в том случае, если включена интеллектуальная оптимизация моделей.

Говоря техническим языком, Qlik Predict использует алгоритм на основе дерева решений (алгоритм «изолирующий лес») для обнаружения аномалий и выбросов в обучающих данных. На этапе обработки данных при интеллектуальной оптимизации моделей каждой точке данных (обычно называемой записью) из набора данных присваивается оценка аномалии, которая взвешивается в зависимости от степени уверенности в том, что она является аномалией.

Обработка аномалий при обучении моделей

После необходимой обработки и преобразования данных Qlik Predict приступает к обучению моделей. В ходе этого процесса взвешенные оценки аномалий, созданные ранее, используются для корректировки влияния каждой строки на модель. Например, строке, которая с высокой вероятностью содержит аномалию, назначается более низкое влияние при обучении модели.

Эта система взвешенной оценки позволяет Qlik Predict не отбрасывать данные, а просто уменьшать влияние выбросов данных на модель.

Замечания

Несмотря на возможности обнаружения аномалий, доступные в Qlik Predict, это не означает, что для получения высококачественной модели можно использовать любые данные. Если данные содержат нехарактерно большую долю ошибочной или поврежденной информации, обнаружение аномалий не сможет устранить все эти проблемы.

В таких случаях рекомендуется вернуться к процессу сбора данных, чтобы получить наиболее качественные и реалистичные данные. Это поможет оптимизировать надежность и успешность модели машинного обучения.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!