Перейти к основному содержимому Перейти к дополнительному содержимому

Проверка и уточнение версий модели

Завершив работу над первой версией обучения модели, анализируйте метрики полученной модели и настраивайте конфигурации новых моделей эксперимента, пока не добьетесь желаемого результата.

Когда запускается версия эксперимента, открывается вид модели, где можно анализировать результирующие метрики модели. Можно в любой момент переключаться между видами схемы и данных. Когда требуется вернуться в вид модели, щелкните значок Объект (Вид модели).

Первая версия обучения завершается, когда все метрики внесены в таблицу Метрики модели и рядом с лучшей моделью появляется значок кубка Кубок.

Примечание к информацииAutoML постоянно совершенствует свои процессы обучения модели. Поэтому можно заметить, что метрики модели и другие сведения, приведенные на иллюстрациях на этой странице не совпадают с данными, отображаемыми при выполнении этих упражнений.

Анализ модели

В виде модели показано, что лучший алгоритм помечен значком кубка Кубок. Это означает, что данная модель является самой эффективной по показателю F1.

Вид модели, где отображается самая эффективная модель версии v1.

Вид модели, на котором представлены метрики модели.
  1. Нажмите кнопку подборщика столбцов Столбцы в правом верхнем углу таблицы. Здесь можно просмотреть все доступные метрики для задачи и при необходимости добавить или удалить метрики. Выберите любые метрики, которые требуется отображать в таблице, или оставьте метрики по умолчанию.

    Используйте средство выбора столбцов для добавления или удаления метрик в таблице Метрики модели

    Выбор столбцов в таблице «Метрики модели»
  2. В таблице Метрики модели щелкните раскрывающееся меню фильтра Алгоритм и выберите алгоритм, соответствующий самой эффективной модели.

  3. Включите параметр Показать метрики данных для обучения.

    Теперь отображаются метрики, сгенерированные в ходе обучения с использованием перекрестной проверки, которые можно сравнить с метриками, полученными на основе отложенных данных. Для каждого контрольного столбца метрики имеется соответствующий учебный столбец эквивалентной метрики из данных для обучения.

    Таблица Метрики модели с метриками на основе данных для обучения

    Метрики обучения показаны под метриками, сгенерированными на основе отложенных данных.
  4. Щелкните Очистить фильтры и переключите переключатель Показать метрики данных для обучения в положение «Выкл.».

  5. Отсортируйте модели по эффективности в порядке убывания, щелкнув заголовок столбца F1. Можно исключить алгоритмы с низкой эффективностью или сосредоточиться только на лучшем из них, чтобы получить более быстрые результаты при следующей итерации обучения. Это будет решаться при настройке версии v3 дальше в этом разделе.

  6. Прокрутите вниз, чтобы посмотреть визуализации для выбранной модели, находящиеся под таблицей метрик.

    Таблица Метрики модели и визуализации

    Таблица «Метрики модели» и визуализации.
  7. Щелкните Панель конфигурации эксперимента или Просмотреть конфигурацию, чтобы развернуть панель Конфигурация эксперимента.

  8. Щелкните Новая версия, чтобы создать черновик новой версии эксперимента.

  9. На диаграмме Важность перестановки, а также по списку Признаки на панели Конфигурация эксперимента видно, что эта первая итерация модели сильно зависит от признака DaysSinceLastService, а все остальные признаки не имеют практически никакого значения по сравнению с ним.

    Метрики «Важность перестановки» на панели «Конфигурация эксперимента» с указанием на зависимость от признака DaysSinceLastService

    Список «Признаки» на панели «Конфигурация эксперимента» указывает на то, что признак DaysSinceLastService оказывает непропорционально большое влияние на эксперимент.

    Такую большую разницу в степени влияния и крайне высокую эффективность модели следует воспринимать как признак наличия проблем. В данном случае во время сбора данных не была определена логика, позволяющая остановить подсчет количества дней с момента получения клиентом последнего билета службы, для клиентов, которые отказались от подписки. В результате модель научилась ассоциировать большое количество дней с момента получения последнего билета обращения в службу поддержки со значением yes в столбце Churned.

    Это пример утечки данных, так как в реальном сценарии у модели был бы доступ к данным только до момента создания прогнозирования, а данные о количестве дней, содержащиеся в этом поле, были собраны после точки измерения. Для получения дополнительной информации об утечке данных см. Утечка данных.

    Нам необходимо исключить признак DaysSinceLastService, который послужил причиной утечки, из конфигурации эксперимента, поскольку он искажает результирующие модели. Обратите внимание, что при использовании в реальных условиях необходимо тщательно проверить качество данных и логику до создания модели, чтобы убедиться, что результирующая модель обучена правильно.

    Эта проблема будет решаться при настройке версии v2 в следующем разделе.

Настройка конфигурации и запуск версии 2

Так как основная часть обучения модели изменится после устранения утечки данных, давайте настроим конфигурацию новой версии, прежде чем продолжать процесс уточнения модели.

  1. На предыдущем этапе мы уже открыли панель Конфигурация эксперимента для настройки версии 2.

  2. В списке Признаки на панели Конфигурация модели снимите флажок DaysSinceLastService.

  3. Щелкните Запустить версию 2.

Настройка конфигурации и запуск версии 3

После завершения выполнения второй версии эксперимента установите флажок рядом с самой эффективной моделью версии v2 в таблице «Метрики» (отмеченной значком кубка Кубок). После этого на странице появятся метрики этой модели.

Над таблицей Метрики модели щелкните раскрывающийся список фильтра Версия и выберите 2. Это позволит сосредоточиться только на метриках моделей v2.

Мы видим, что список важных признаков значительно изменился в результате устранения утечки данных. В самой эффективной модели также может использоваться алгоритм, отличный от самой эффективной модели версии v1.

Таблица Метрики модели с самыми эффективными моделями для версии v2 с сортировкой по значению F1

Таблица «Метрики модели» с примененным фильтром «Версия» ― v2» после обучения версии v2.
  1. Взгляните на диаграмму важности перестановки. Одни признаки могут оказывать на модель меньше влияния, чем другие. Они представляют небольшую прогнозную ценность для данного сценария использования и могут рассматриваться как статистический шум. Можно попробовать удалить некоторые из этих признаков и посмотреть, улучшит ли это показатели модели.

    Диаграмма Важность перестановки для самой эффективной модели версии v2

    Диаграмма «Важность перестановки» после удаления признака DaysSinceLastService, приводившего в утечке данных.
  2. Щелкните Панель конфигурации эксперимента или Просмотреть конфигурацию, чтобы развернуть панель Конфигурация эксперимента.

  3. Щелкните Новая версия, чтобы создать черновик новой версии эксперимента.

  4. На панели Конфигурация эксперимента в разделе Признаки, снимите флажки для одного или нескольких признаков, которые оказывают небольшое влияние на модель или совсем не оказывают влияния.

  5. Взгляните на таблицу Метрики модели. Можно исключить некоторые алгоритмы с низкой эффективностью или сосредоточиться только на лучших из них, чтобы получить более быстрые результаты при следующей итерации обучения.

  6. На панели Конфигурация эксперимента в списке Алгоритмы можно по желанию снять флажки рядом с некоторыми малоэффективными алгоритмами.

  7. Щелкните Запустить версию 3.

Сравнение версий экспериментов

В таблице Метрики модели щелкните Очистить фильтры.

После выполнения версии v3 установите флажок рядом с самой эффективной моделью версии v3, чтобы просмотреть ее метрики.

Нажмите Другие фильтры моделей и выберите фильтр Модели с лучшей производительностью. Отображаются метрики для самых эффективных моделей в каждой итерации эксперимента.

Первая версия обучения дала более высокие результаты, но эти метрики были очень завышены и не могли служить реалистичными предикторами эффективности, что стало результатом утечки данных. В версии 3 значение F1 самой эффективной модели увеличилось по сравнению с самой эффективной моделью версии 2.

Самые эффективные модели

Таблица «Метрики модели» с примененным фильтром «Модели с лучшей производительностью»: отображается самая эффективная модель для версии v3.

В реальной ситуации важно повторять эти шаги уточнения необходимое количество раз перед развертыванием модели, чтобы получить самую лучшую модель для конкретного сценария использования.

Перейдите к следующему разделу данного учебного пособия, который посвящен развертыванию модели.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!