Обнаружение и обработка аномалий
Обнаружение и обработка аномалий обеспечиваются при использовании интеллектуальной оптимизации модели. Благодаря этим возможностям Qlik Predict может автоматически обрабатывать значения выбросов в данных обучения с помощью специальной обработки. Во время обучения данные выбросов из данных обучения не удаляются полностью, а обрабатываются с использованием системы взвешивания на основе алгоритмов.
Значения выбросов, или аномалии, часто встречаются почти в каждом типе данных, с которыми вы можете работать. Аномалии — это значения данных, которые выходят за пределы обычно ожидаемого диапазона. При обучении моделей машинного обучения определенная доля аномалий может быть допустимой и даже желательной как отражение реальных отклонений. Однако в крайних случаях аномалии и значения выбросов вносят смещение в модель, снижая ее надежность и полезность.
Примеры
Не все аномалии следует рассматривать одинаково, и не всегда их следует воспринимать как то, что нужно удалить из данных. Например, если аномалия данных является естественно возможным, но редким явлением, которое можно наблюдать при сборе данных, может иметь смысл использовать ее в обучаемых моделях. Отличным примером этого являются случаи мошенничества в финансовых транзакциях. Из миллионов транзакций лишь несколько могут быть связаны с мошенничеством. В зависимости от проблемы, которую вы хотите проанализировать и решить с помощью своей модели, вероятность мошенничества в повседневных транзакциях может быть тем, что вы хотели бы учитывать при создании прогнозов.
Примером аномалии, которую вы, вероятно, захотите удалить, является непреднамеренный сбой, возникающий при сборе данных. Например, допустим, вы создаете модель, которая будет использоваться для прогнозирования погодных условий. Ваша модель обучается на данных с датчика, который отслеживает погодные показатели, и не связанное с этим отключение электроэнергии приводит к сбору ошибочных данных с датчика. Эти ошибочные данные могут считаться аномальными данными, которые вы захотите удалить перед завершением обучения модели.
Как Qlik Predict обрабатывает аномалии?
Обнаружение и обработка аномалий выполняются при обучении моделей с помощью интеллектуальной оптимизации модели, которая включена по умолчанию в новых экспериментах.
В целом можно считать, что обработка аномалий происходит в два отдельных процесса: обнаружение и фактическое обучение модели.
Обнаружение аномалий
При запуске версии обучения Qlik Predict выполняет несколько шагов до начала обучения модели. Это включает классификацию данных, подстановку пустых значений и ряд других процессов. Обнаружение аномалий завершается на этом этапе и только в том случае, если включена интеллектуальная оптимизация модели.
С технической точки зрения Qlik Predict использует алгоритм на основе дерева решений, алгоритм изолирующего леса, для обнаружения аномалий и значений выбросов в данных обучения. На этапе обработки данных в интеллектуальной оптимизации модели каждая точка диаграммы в наборе данных (обычно называемая записью) получает оценку аномалии и взвешивается на основе степени уверенности в том, что это аномалия.
Обработка аномалий при обучении модели
После того как данные обработаны и преобразованы по мере необходимости, Qlik Predict начинает обучение моделей. Во время этого процесса сгенерированные ранее взвешенные оценки аномалий используются для корректировки влияния каждой строки на модель. Например, строке, которая с высокой вероятностью содержит аномалию, назначается меньшее влияние на обучение модели.
Эта система взвешенной оценки позволяет Qlik Predict избегать отбрасывания данных и вместо этого просто снижать влияние, которое данные выбросов оказывают на модель.
Особенности
Несмотря на возможности обнаружения аномалий, доступные в Qlik Predict, это не означает, что любые данные можно использовать для обучения высококачественной модели. Если ваши данные содержат нехарактерно большую долю ошибочной или поврежденной информации, обнаружение аномалий не сможет устранить все эти проблемы.
В таких сценариях рекомендуется вернуться к процессу сбора данных, чтобы убедиться, что в вашем распоряжении имеются максимально качественные и реалистичные данные. Это поможет оптимизировать надежность и успешность вашей модели машинного обучения.