Уточнение моделей
После создания нескольких исходных моделей их необходимо уточнить, чтобы повысить их эффективность и потенциальную точность. Оценки модели указывают на различные показатели производительности. Несмотря на то что целью уточнения моделей является улучшение этих оценок, более высокая оценка не всегда означает, что модель лучше.
Можно дорабатывать модели, включая или исключая признаки, изменяя данные для обучения и корректируя другие параметры конфигурации. Это позволит сравнить разные версии, чтобы оценить эффект внесенных изменений.
Интерпретация оценок поможет вам узнать, как уточнить модель. А значения различных метрик дадут представление о том, какие действия необходимо предпринять, чтобы улучшить результат.
Требования и разрешения
Для получения информации о требованиях, предъявляемых к пользователю для работы с экспериментами машинного обучения, см. раздел Работа с экспериментами.
Настройка конфигурации новой версии
После выполнения версии эксперимента можно при необходимости доработать модели, путем создания новой версии.
Выполните следующие действия.
-
На вкладке Данные, Модели или Анализ выберите модель, которая будет использоваться в качестве базовой для следующей версии.
-
Щелкните Посмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Щелкните Новая версия.
После создания новой версии можно вносить изменения в ее конфигурацию, например:
-
Исключение существующих признаков
-
Включение ранее исключенных признаков
-
Изменение или обновление набора данных
-
Выбор алгоритмов или отмена их выбора
Дополнительная информация об этих действиях приводится в следующих разделах.
При проектировании новой версии щелкните значок фильтра в разделе Признаки на панели конфигурации эксперимента. Фильтрация упрощает визуализацию признаков, добавленных с момента изменения набора данных для обучения. Также можно посмотреть, какие элементы созданы автоматически или не созданы.
Улучшение набора данных
Если полученные результаты модели неудовлетворительны, возможно, вам стоит пересмотреть набор данных, чтобы устранить проблемы. Для получения дополнительной информации о том, как улучшить набор данных, см. раздел Подготовка набора данных для обучения.
Исключение признаков
Наличие большего количества признаков не всегда означает, что модель лучше. Чтобы уточнить модель, необходимо исключить ненадежные и нерелевантные признаки. Примеры таких признаков приведены ниже.
-
Признаки со слишком высокой корреляцией. Из двух коррелирующих признаков исключите менее важный признак.
-
Признаки со слишком низким уровнем важности. Эти признаки не оказывают никакого влияния на результаты прогнозирования.
-
Признаки со слишком высоким уровнем важности. При включении таких признаков может произойти утечка данных.
Попробуйте удалить признак из данных для обучения, затем еще раз запустите обучение и проверьте, стала ли модель лучше. Как сильно отсутствие этого признака повлияло на оценку модели?
Выполните следующие действия.
-
Откройте эксперимент из каталога.
-
На вкладке Данные, Модели или Анализ выберите модель, которая будет использоваться в качестве базовой для следующей версии.
-
Щелкните Посмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Щелкните Новая версия, чтобы настроить новую версию эксперимента.
-
В разделе Признаки снимите флажки с тех признаков, которые не должны использоваться при обучении.
Добавление признаков
Если модель по-прежнему не дает хороших результатов, это может быть связано с тем, что признаки, которые могут повлиять на цель, еще не представлены в наборе данных. Можно переработать и переориентировать набор данных, чтобы оптимизировать качество данных, а также добавить новые признаки и информацию. Готовый новый набор данных можно добавлять в будущие версии эксперимента. См. Изменение или обновление набора данных.
Для получения дополнительной информации о том, как создавать или конструировать новые признаки, см. раздел Создание новых столбцов признаков.
Выбор алгоритмов
Подходящие алгоритмы для обучения выбираются автоматически на основе типа данных целевого столбца. При необходимости можно исключить алгоритмы, которые работают не так хорошо или медленнее. Таким образом, вам не придется тратить время на их обучение.
Для получения дополнительной информации о том, как выбираются алгоритмы, см. раздел Общее представление об алгоритмах модели.
Выполните следующие действия.
-
Откройте эксперимент из каталога.
-
На вкладке Данные, Модели или Анализ выберите модель, которая будет использоваться в качестве базовой для следующей версии.
-
Щелкните Посмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Щелкните Новая версия, чтобы настроить новую версию эксперимента.
-
В разделе Алгоритмы снимите флажки с тех алгоритмов, которые не должны использоваться при обучении.
Изменение или обновление набора данных
Если данные для обучения изменились по сравнению с последней версией эксперимента, можно изменить или обновить набора данных для будущих версий эксперимента.
Это может быть полезно, если требуется сравнить метрики модели и производительность для разных наборов данных в рамках одного эксперимента. Например, обновление поможет, если:
-
Доступен новый набор записей данных, или внесены обновления в первоначальный набор записей данных. Например, могли стать доступными транзакции за последний месяц, и их можно использовать в обучении, либо идентифицирована и устранена проблема сбора данных.
-
Первоначальный набор данных для обучения переработан или переориентирован, возможно, с целью улучшения обучения модели. Например, могла быть улучшена логика для определения значений столбцов признаков или даже могли быть добавлены новые столбцы признаков.
Изменение или обновление набора данных не приводит к модификации существующих моделей, которые уже обучены в ходе предыдущих версий экспериментов. В рамках версии экспериментов модели обучаются только с использованием данных обучения, определенных в пределах конкретной версии.
Требования
При изменении или обновлении набора данных для новой версии эксперимента, новый набор данных должен соответствовать следующим требованиям:
-
Имя и тип признака целевого столбца должно совпадать с целью в первоначальном наборе данных для обучения.
- Количество уникальных значений в целевом столбце должно находиться в том диапазоне, который требуется для данного типа эксперимента. Например, для эксперимента с многоклассовой классификацией целевой столбец в новом наборе данных по-прежнему должен содержать от трех до десяти уникальных значений. Для получения информации о конкретных диапазонах см. раздел Определение типа создаваемой модели.
Другие столбцы признаков могут быть абсолютно новыми, иметь другие имена и содержать другие данные.
Изменение набора данных
Выполните следующие действия.
-
На вкладке Данные, Модели или Анализ выберите модель, которая будет использоваться в качестве базовой для следующей версии.
-
Щелкните Посмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Щелкните Новая версия, чтобы настроить новую версию эксперимента.
-
В области Данные для обучения щелкните Изменить набор данных.
-
Выберите или загрузите новый набор данных.
Обновление набора данных
Выполните следующие действия.
-
На вкладке Данные, Модели или Анализ выберите модель, которая будет использоваться в качестве базовой для следующей версии.
-
Щелкните Посмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Щелкните Новая версия, чтобы настроить новую версию эксперимента.
-
В области Данные для обучения щелкните Обновить набор данных.
Если доступно обновление набора данных, отображается соответствующее уведомление. Обычно набор данных обновляется, когда файл существующих данных перезаписывается в результате создания нового файла с тем же именем.
Выполнение уточненной версии
После завершения настройки конфигурации можно приступать к выполнению версии.
Выполните следующие действия.
-
Нажмите Запустить версию 2 в правом нижнем углу экрана.
(Текст на кнопке зависит от количества запущенных версий.)
Сравнение версий экспериментов
После завершения обучения новой версии сравните новую версию со старой, чтобы оценить результат изменений. Имеется несколько вариантов сравнения моделей в разных версиях экспериментов.
Быстрый анализ
Используйте вкладки Модели и Данные в эксперименте, чтобы сравнить текущую версию с предыдущими. На вкладке Модели доступны следующие действия:
-
Просматривайте результаты в таблице Метрики модели.
-
Переключайтесь между моделями для просмотра различий в диаграмме Краткое описание обучения модели и в других автоматически созданных диаграммах.
Для получения дополнительной информации о быстром анализе моделей см. раздел Выполнение быстрого анализа модели.
Глубокий анализ
Можно выполнить более глубокий анализ модели, для этого переходите на вкладки Сравнение и Анализ в эксперименте. На этих вкладках встроенные средства аналитики позволяют интерактивно оценивать модели на более детализированном уровне.
Вкладка Сравнение предоставляет возможности для сравнения оценок модели и гиперпараметров для всех моделей. Вкладка Анализ позволяет сосредоточить внимание на конкретной модели, чтобы оценить точность прогнозов, важность признаков и другие сведения.
Для получения дополнительной информации см. разделы Сравнение моделей и Выполнение подробного анализа модели.
Изменение параметров оптимизации модели
Можно отключить интеллектуальную оптимизацию после выполнения версии, в которой она была активирована. Это позволяет использовать наблюдения, полученные в результате интеллектуальной оптимизации, и при этом обеспечивает необходимый контроль для внесения незначительных, мелких поправок. В качестве альтернативы можно включить интеллектуальную оптимизацию модели после выполнения одной или нескольких версий без нее.
Оптимизацию гиперпараметров полезно включать в процессе уточнения модели. Как правило, этот параметр не рекомендуется включать для первой версии эксперимента.
Также можно выбрать, следует ли использовать обучение с учетом времени, или изменить столбец, используемый в качестве индекса даты.
Выполните следующие действия.
Щелкните Посмотреть конфигурацию.
При необходимости щелкните Новая версия, чтобы настроить новую версию эксперимента.
На панели разверните пункт Оптимизация модели.
Переключайтесь между параметрами Интеллектуальная и Ручная, чтобы включать или выключать интеллектуальную оптимизацию модели.
Если требуется активировать оптимизацию гиперпараметров, установите флажок Оптимизация гиперпараметров и задайте максимальное время обучения.
В разделе Разделение данных на тестирование и обучение на основе времени можно изменить параметры для обучения с учетом времени:
Чтобы включить обучение с учетом времени, измените значение по умолчанию Нет, выбрав определенный столбец из набора данных в поле Индекс даты.
Чтобы отключить обучение с учетом времени, установите в поле Индекс даты значение Нет.
Выберите другой столбец в поле Индекс даты.
Удаление версий экспериментов
Версии экспериментов, которые вы не хотите сохранять, можно удалить. Обратите внимание, что все модели в версиях экспериментов также будут удалены без возможности восстановления.
Выполните следующие действия.
Перейдите на вкладку Модели.
В таблице Метрики модели выберите модель из версии эксперимента, которую необходимо удалить.
Примечание к подсказкеМодель также можно выбрать на вкладке Данные или Анализ ― в раскрывающемся меню на панели инструментов.Нажмите Удалить версию <номер_версии> в правом нижнем углу.
В диалоговом окне подтверждения нажмите Удалить.