Оценка эффективности модели с течением времени
Обучив несколько моделей машинного обучения и развернув лучшую из них, можно приступать к созданию прогнозов на основе производственных данных. Важно постоянно оценивать эффективность модели и подтверждать, что она по-прежнему генерирует надежные прогнозы и что данные, на основе которых она была обучена, все еще актуальны.
Факторы, которые важно отслеживать
Операционные потребности
Прогностическая польза, скорее всего, будет меняться со временем. Изменения могут быть незначительными или существенными. Потребуется оценить, остается ли модель полезной в текущей конфигурации. Если задача машинного обучения существенно изменилась с момента первоначального обучения моделей, рекомендуется заново начать процесс определения задачи и набора данных.
Исходные данные и точность прогнозирования
Распределения и тренды в исходных данных часто меняются с течением времени. То, что когда-то было определяющим качеством данных для обучения, может потерять актуальность, а может приобрести еще более выраженное влияние. Может оказаться, что существуют новые переменные, влияющие на результат прогнозирования, которые необходимо ввести в модель в качестве новых признаков. Аналогичным образом, некоторые признаки могут уже не вносить достаточно существенного вклада в результаты, и их следует исключить из модели.
Очень важно отслеживать дрейф данных путем сравнения исходных данных для обучения с самыми последними доступными данными. Если дрейф для определенных признаков приближается к неприемлемому уровню, пора собрать новые данные и повторно обучить модель, или заново определить задачу машинного обучения. Для получения дополнительной информации о дрейфе данных см. раздел Дрейф данных.
Кроме того, если стало ясно, что точность прогнозирования с использованием модели снизилась по сравнению с первоначальной, необходимо заново оценить, какие изменения необходимо внести, чтобы восстановить приемлемую производительность. Например, может оказаться, что на точность модели влияют ошибки, возникающие в процессе сбора данных.
Переобучение моделей
По мере поступления большего количества исторических данных и независимо от того, снизилась эффективность модели или нет, все равно придется переобучать модели, чтобы они отражали самую свежую информацию.
Мониторинг дрейфа данных
AutoML имеет встроенную функцию, которая помогает обнаружить дрейф признаков для развернутых моделей. Для получения дополнительной информации см. раздел Мониторинг дрейфа данных в развернутых моделях.
Следующие шаги
В зависимости от того, насколько существенно изменился сценарий использования и входные данные, можно рассмотреть один или несколько следующих вариантов действий:
-
Переобучите модели в рамках того же эксперимента, используя новые данные. Если задача машинного обучения не претерпела существенных изменений, этот вариант обеспечивает несколько преимуществ. В частности, можно провести детальное сравнение моделей из всех версий эксперимента в рамках одного эксперимента. Для получения дополнительной информации см. раздел Изменение или обновление набора данных.
-
Если первоначально поставленная задача машинного обучения больше не актуальна, возможно, имеет смысл создать новый эксперимент. Это во многом зависит от сценария использования.