Перейти к основному содержимому Перейти к дополнительному содержимому

Отложенные данные и перекрестная проверка

Одна из самых больших проблем в прогнозной аналитике — понять, как обученная модель будет работать с данными, которые она никогда раньше не видела. Иными словами, насколько хорошо модель научилась находить истинные закономерности по сравнению с тем, насколько хорошо она запомнила данные для обучения. Отложенные данные и перекрестная проверка являются эффективными методами, позволяющими убедиться, что модель не просто запоминает данные, а действительно научилась находить общие закономерности.

Тестирование моделей на запоминание и обобщение

Спрашивать, насколько хорошо модель будет работать в реальных условиях, все равно, что спрашивать, запоминает ли модель или обобщает. Запоминание – это способность отлично помнить то, что происходило в прошлом. Хотя модель, которая запоминает, может иметь высокие показатели при первом обучении, точность прогнозирования значительно снизится при ее применении к новым данным. Вместо этого нужна модель, которая обобщает. Обобщение — это способность находить и применять общие закономерности. Научившись находить истинные общие закономерности в данных для обучения, обобщенная модель сможет создавать качественные прогнозы и на основе новых данных, которые она никогда раньше не видела.

Автоматически отложенные данные

Отложенные данные — это случайно выбранные данные, которые «скрываются» от модели во время ее обучения, а затем используются для оценки модели. Отложенные данные имитируют работу модели при прогнозировании в будущем, создавая метрики точности для данных, которые не использовались в обучении. Это как если бы мы создали и развернули модель и отслеживаем, как она создает прогнозы по сравнению с тем, что произошло на самом деле, — и при этом нам не нужно ждать, чтобы понаблюдать за этими прогнозами.

Набор данных, разделенный на данные для обучения и отложенные данные

Соотношение данных для обучения и отложенных данных.

Перекрестная проверка

Метод перекрестной проверки заключается в том, чтобы взять набор данных и случайным образом разбить его на несколько одинаковых сегментов, называемых свертками. Алгоритм машинного обучения обучается на всех свертках, кроме одной. Затем каждая свертка сопоставляется методом перекрестной проверки с моделью, обученной на всех остальных свертках. Это означает, что каждая обученная модель тестируется на сегменте данных, который она никогда раньше не видела. Процесс повторяется, при этом другая свертка скрывается во время обучения. Затем выполняется тестирование до тех пор, пока все свертки не будут использованы ровно один раз в качестве тестовых данных и обучены во время каждой следующей по порядку итерации.

Данные для обучения разбиты на пять сверток. Во время каждой итерации откладывается следующая по порядку свертка, которая будет использоваться в качестве тестовых данных.

Данные для обучения разбиты на пять сверток и итерируются пять раз.

Результатом перекрестной проверки является набор тестовых метрик, которые дают обоснованный прогноз того, насколько точно обученная модель будет прогнозировать на основе данных, которые она никогда раньше не видела.

Как работают автоматически отложенные данные и перекрестная проверка

AutoML использует пятикратную перекрестную проверку во время обучения модели, чтобы сымитировать работу модели. Затем модель тестируется на отдельных отложенных данных для обучения. При этом создаются метрики оценки, позволяющие оценить и сравнить, насколько хорошо работают различные алгоритмы.

  1. Перед запуском обучения эксперимента все данные в наборе данных, целевые значения которых не являются значениями NULL, случайным образом перемешиваются. 20 процентов набора данных извлекаются как отложенные данные. Остальные 80 процентов набора данных используются для обучения модели с перекрестной проверкой.

  2. При подготовке к перекрестной проверке набор данных случайным образом разбивается на пять частей (сверток). Затем модель обучают пять раз, каждый раз «скрывая» одну из пяти частей данных, чтобы проверить, как работает модель. В ходе перекрестной проверки создаются метрики обучения, которые представляют собой средние вычисленные значения.

  3. После обучения модель применяется к отложенным данным. Поскольку модель не видит отложенные данные во время обучения, в отличие от данных перекрестной проверки, они идеально подходят, чтобы проверить эффективность обучения модели. На этапе окончательной оценки модели создаются метрики на основе отложенных данных.

Для получения дополнительной информации о метриках, используемых для анализа эффективности модели, см. раздел Анализ моделей.

Данные для обучения используются во время пятикратной перекрестной проверки с целью создания модели.После обучения модель оценивается при помощи отложенных данных.

Данные для обучения используются для перекрестной проверки, а отложенные данные — для окончательной оценки модели.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!