Интеллектуальная оптимизация модели
Интеллектуальная оптимизация моделей обеспечивает автоматическое уточнение моделей, обучаемых в рамках эксперимента. Благодаря интеллектуальной оптимизации моделей процесс итерационного выбора признаков и применения расширенных преобразований к данным выполняется без вашего участия. С хорошо подготовленным набором данных для обучения, включающим все необходимые признаки, интеллектуальная оптимизация моделей обучит готовые к развертыванию модели в рамках одной версии.
Что такое интеллектуальная оптимизация модели?
Интеллектуальная оптимизация моделей автоматизирует многие аспекты процесса уточнения модели. Интеллектуальная оптимизация моделей позволяет быстро обучать высококачественные модели, не прибегая к ручному выбору признаков или корректировке входных данных.
Применение интеллектуальной оптимизации моделей
Интеллектуальная оптимизация модели по умолчанию включена для новых экспериментов машинного обучения. Эти параметры можно включать и выключать для каждой выполняемой версии эксперимента.
После выполнения версии эксперимента с включенной интеллектуальной оптимизацией результаты оптимизации можно просмотреть в разделе Краткое описание обучения модели. Эта сводка отображается на вкладке Модели под заголовком Наблюдения модели. Наведите указатель мыши на подчеркнутые термины, чтобы просмотреть подсказку с подробным описанием.
Краткое описание обучения модели отличается для каждой модели, обученной в версии эксперимента.
Как работает интеллектуальная оптимизация моделей
При использовании интеллектуальной оптимизации модели:
Обучается больше моделей, чем при ручной оптимизации. Выборка признаков обрабатывается на уровне модели. Это означает, что в отличие от ручной оптимизации, каждая модель в версии может иметь индивидуальную выборку признаков.
В дополнение к автоматической предварительной обработке, применяемой ко всем моделям по умолчанию, к данным для обучения применяется несколько расширенных преобразований. Эти преобразования помогают обеспечить оптимальный формат данных для алгоритмов машинного обучения.
С целью обеспечения качества продолжается обучение базовой модели, то есть модели, обучаемой с использованием полного набора признаков, настроенного для версии. Это помогает проверить, улучшает ли интеллектуальная оптимизация оценку модели на самом деле.
При использовании больших наборов данных для обучения модели обучаются с применением различных коэффициентов выборки. Это помогает ускорить процесс обучения. Для получения дополнительной информации см. раздел Создание выборки данных для обучения.
Создание выборки данных для обучения
При обучении моделей с применением большого объема данных AutoML использует выборку данных для обучения моделей на разных подмножествах (коэффициентах выборки) первоначального набора данных. Выборка данных применяется для ускорения процесса обучения. В начале обучения моделей используется маленький коэффициент выборки. По мере продолжения обучения моделей порция данных постепенно увеличивается. В конечном счете к обучению подключается полный набор данных (с коэффициентом выборки 100%).
В процессе анализа данных для обучения модели из некоторых видов скрываются модели, обученные с использованием менее 100% набора данных для обучения.
Обработка, применяемая во время интеллектуальной оптимизации моделей
В разделе Краткое описание обучения модели отображается, как данные для обучения обрабатывались в процессе интеллектуальной оптимизации моделей. Следующие разделы содержат более подробную информацию о каждом из элементов, отображаемых в журнале.
Выбор признака
Интеллектуальная оптимизация помогает уточнить модели, отбрасывая признаки, которые могут снизить производительность прогнозирования. Во время интеллектуальной оптимизации моделей признак может быть отброшен по любой из следующих причин:
Утечка цели: подозревается, что на признак оказывает влияние утечка цели. Признаки, затрагиваемые утечкой цели, включают информацию о целевом столбце, для которого выполняется прогнозирование. Например, признак является прямым производным цели или включает информацию, которая не могла быть известна на момент прогнозирования. Признаки, вызывающие утечку цели, могут создавать ложное чувство уверенности в производительности модели. В реальном прогнозировании они могут привести к очень низкой производительности модели.
Низкая важность перестановки: признак не оказывает большого (или вообще никакого) воздействия на прогнозы модели. Удаление таких признаков улучшает производительность модели путем уменьшения статистического шума.
С высокой корреляцией: признак имеет очень высокую корреляцию с одним или несколькими другими признаками в эксперименте. Признаки со слишком высокой корреляцией не подходят для использования в процессе обучения моделей.
На вкладке Данные в эксперименте можно просматривать наблюдения об отброшенных признаках для каждой модели. Столбец Наблюдения также ссылается на признаки, отброшенные не в рамках процесса интеллектуальной оптимизации модели. Для получения дополнительной информации о каждом наблюдении см. раздел Интерпретация наблюдений для набора данных.
Преобразования признаков
Интеллектуальная оптимизация моделей применяет ряд технических преобразований на уровне признака. Эти преобразования обрабатывают данные для обучения, чтобы их можно было более эффективно использовать для создания надежной модели машинного обучения. Преобразования признаков применяются автоматически по мере необходимости. В разделе Краткое описание обучения модели отображается уведомление о примененных преобразованиях и преобразованных признаках.
Степенное преобразование
Данные признаков часто содержат распределения с некоторой степенью асимметрии и отклонения от нормального распределения. Перед обучением модели может быть полезно применить некоторую обработку данных, чтобы нормализовать распределение значений, если оно кажется чрезмерно асимметричным. Такая обработка помогает снизить асимметрию и выявить выбросы.
При интеллектуальной оптимизации моделей числовые признаки, превышающие определенный порог асимметрии, преобразуются в более нормальное (или приближенное к нормальному) распределение с помощью степенных преобразований. В частности, используется степенное преобразование Йео-Джонсона.
Разбиение числовых признаков на группы
Некоторые числовые признаки могут содержать шаблоны и распределения, сложные для обработки алгоритмами машинного обучения. При интеллектуальной оптимизации моделей эта проблема частично решается путем организации данных конкретных числовых признаков в разные группы в зависимости от диапазонов их значений. Разбиение на группы выполняется для того, чтобы такие признаки можно было преобразовать в категориальные признаки.
По завершении разбиения на группы новые категориальные признаки кодируются с одним активным состоянием и используются в обучении. Для получения дополнительной информации о кодировании с одним активным состоянием см. раздел Категориальное кодирование.
Обнаружение и обработка аномалий
Аномалии ― это значения данных, которые выходят за пределы диапазона, в котором их можно было бы ожидать. В данных для обучения периодически встречаются выбросы. Некоторые аномалии могут быть даже желательны для отражения возможных ситуаций в реальном мире. В других случаях аномалии могут помешать обучению надежной модели.
На основе интеллектуальной оптимизации моделей AutoML выявляет потенциальные аномалии. Затем строки, в которых появляются выбросы, обрабатываются с помощью системы взвешивания на основе алгоритма. Если имеется существенное основание рассматривать значение как аномалию, система взвешивания уменьшает влияние соответствующей строки в данных для обучения на модель.
После обучения модели отправляется уведомление о том, какой процент строк из исходного набора данных для обучения был обработан как аномальные данные.
Для получения дополнительной информации см. раздел Обнаружение и обработка аномалий.
Отключение интеллектуальной оптимизации
Когда интеллектуальная оптимизация выключена, оптимизация обучения осуществляется вручную. Ручная оптимизация может быть полезна, если требуется усилить контроль процесса обучения. В частности, может потребоваться выполнить версию с использованием интеллектуальной оптимизации модели, а затем отключить этот параметр, чтобы внести небольшое количество исправлений вручную.
Выполните следующие действия.
В эксперименте щелкните Посмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
Если уже выполнена хотя бы одна версия эксперимента, нажмите Новая версия.
На панели разверните пункт Оптимизация модели.
Переключитесь из режима Интеллектуальная в режим Ручная.
Замечания
При работе с интеллектуальной оптимизацией модели необходимо учитывать следующее:
Использование интеллектуальной оптимизации модели не гарантирует высокого качества моделей после обучения. Этапы подготовки набора данных и конфигурации эксперимента также важных для получения надежных моделей. Если отсутствует хорошо подготовленный набор данных или конфигурация не содержит ключевых признаков, нельзя гарантировать хорошую производительность моделей в рабочих сценариях применения. Для получения дополнительной информации об этих этапах см.:
Когда интеллектуальная оптимизация модели включена для версии, каждая модель из этой версии будет иметь отдельный набор включенных признаков. С другой стороны, все модели из версии, обученной в режиме ручной оптимизации, будут иметь одинаковый набор включенных признаков.
При интеллектуальной оптимизации модели используются только те признаки и алгоритмы, которые включены в конфигурацию для версии.
Оптимизация гиперпараметров
Оптимизация гиперпараметров недоступна, когда включена интеллектуальная оптимизация. Чтобы активировать оптимизацию гиперпараметров, необходимо выбрать тип оптимизации модели Ручная.
Для получения дополнительной информации см. раздел Оптимизация гиперпараметров.
Пример
Для ознакомления с примером, демонстрирующим преимущества интеллектуальной оптимизации модели, см. раздел Пример: обучение моделей с применением AutoML (автоматизированное машинное обучение).