Интеллектуальная оптимизация моделей
Интеллектуальная оптимизация моделей обеспечивает автоматическое улучшение моделей, обучаемых в рамках эксперимента. Благодаря интеллектуальной оптимизации моделей процессы итеративного выбора характеристик и применения расширенных преобразований выполняются автоматически. При наличии хорошо подготовленного набора данных для обучения, содержащего все важные характеристики, интеллектуальная оптимизация моделей позволяет обучить готовые к развертыванию модели в рамках одной версии.
Что такое интеллектуальная оптимизация моделей?
Интеллектуальная оптимизация моделей автоматизирует многие аспекты процесса улучшения моделей. Благодаря интеллектуальной оптимизации моделей можно быстро обучать высококачественные модели без необходимости вручную настраивать выбор характеристик или корректировать входные данные.
Использование интеллектуальной оптимизации моделей
Интеллектуальная оптимизация моделей включена по умолчанию в новых экспериментах ML следующих типов:
-
Бинарная классификация
-
Мультиклассовая классификация
-
Регрессия
Интеллектуальная оптимизация модели не применима к экспериментам с временными рядами.
Интеллектуальную оптимизацию моделей можно включать или выключать для каждой запускаемой версии эксперимента.
После запуска версии эксперимента с включенной интеллектуальной оптимизацией результаты оптимизации можно просмотреть в разделе Сводка по обучению модели. Эта сводка отображается на вкладке Модели в разделе Аналитика моделей. Наведите курсор на подчеркнутые термины, чтобы отобразить подсказку с подробным описанием.
Раздел Сводка по обучению модели отличается для каждой модели, обученной в версии эксперимента.
Принцип работы интеллектуальной оптимизации моделей
При использовании интеллектуальной оптимизации моделей:
-
Обучается больше моделей, чем при ручной оптимизации. Выбор характеристик выполняется на уровне модели. Это означает, что в отличие от ручной оптимизации для каждой модели в версии может применяться свой выбор характеристик.
-
В дополнение к автоматической предварительной обработке, применяемой ко всем моделям по умолчанию, данные для обучения обрабатываются с использованием нескольких расширенных преобразований. Эти преобразования помогают представить данные в оптимальном формате для алгоритмов машинного обучения.
-
Для контроля качества по-прежнему обучается базовая модель — модель, обученная на всем наборе характеристик, настроенном для этой версии. Это помогает проверить, действительно ли интеллектуальная оптимизация улучшает оценки модели.
-
Для более крупных наборов данных для обучения модели обучаются с использованием различных коэффициентов выборки. Это помогает ускорить процесс обучения. Для получения дополнительной информации см. раздел Выборка данных для обучения.
Выборка данных для обучения
При обучении моделей на большом объеме данных Qlik Predict использует выборку для обучения моделей на различных подмножествах (коэффициентах выборки) исходного набора данных. Выборка используется для ускорения процесса обучения. В начале обучения модели обучаются на малом коэффициенте выборки. По мере продолжения обучения модели постепенно обучаются на более крупных частях данных. В конечном итоге модели обучаются на всем наборе данных (коэффициент выборки 100%).
Во время анализа данных обучения моделей модели, обученные менее чем на 100% набора данных для обучения, скрыты в некоторых представлениях.
Обработка, применяемая во время интеллектуальной оптимизации моделей
В разделе Сводка по обучению модели показано, как данные для обучения были обработаны с помощью интеллектуальной оптимизации моделей. В следующих разделах содержится более подробная информация о каждом элементе, который отображается в журнале.
Применяемая обработка может отличаться в зависимости от модели.
Диаграмма Сводка по обучению модели для модели, отображаемая на вкладке Модели
Выбор характеристик
Интеллектуальная оптимизация моделей помогает улучшить модели путем исключения характеристик, которые могут снизить прогностическую точность. Во время интеллектуальной оптимизации моделей характеристика может быть исключена по любой из следующих причин:
-
Утечка целевого признака: подозревается, что на характеристику влияет утечка целевого признака. Характеристики, затронутые утечкой целевого признака, содержат информацию о целевом столбце, значение которого вы пытаетесь спрогнозировать. Например, характеристика получена непосредственно из целевого признака или содержит информацию, которая не была бы известна на момент прогнозирования. Характеристики, вызывающие утечку целевого признака, могут дать ложное ощущение уверенности в эффективности модели. В реальных прогнозах они приводят к крайне низкой эффективности модели.
-
Низкая важность перестановки: характеристика оказывает незначительное влияние на прогнозы модели или не оказывает его вовсе. Удаление таких характеристик повышает эффективность модели за счет снижения статистического шума.
-
Высокая корреляция: характеристика сильно коррелирует с одной или несколькими другими характеристиками в эксперименте. Характеристики со слишком высокой корреляцией не подходят для использования при обучении моделей.
На вкладке Данные в эксперименте можно просмотреть аналитические сведения об исключенных характеристиках для каждой модели. В разделе Аналитика также упоминаются характеристики, которые были исключены вне процесса интеллектуальной оптимизации моделей. Для получения дополнительной информации о каждом аналитическом выводе см. раздел Интерпретация аналитических сведений о наборе данных.
Преобразования характеристик
Интеллектуальная оптимизация моделей применяет ряд технических преобразований на уровне характеристик. Эти преобразования обрабатывают данные для обучения, чтобы их можно было более эффективно использовать для создания надежной модели машинного обучения. Преобразования характеристик применяются автоматически по мере необходимости. В разделе Сводка по обучению модели вы получите уведомление о применении преобразований характеристик и о том, какие характеристики были затронуты.
Степенное преобразование
Данные характеристик часто естественным образом содержат распределения с некоторой степенью асимметрии и отклонения от нормального распределения. Перед обучением модели может быть полезно применить некоторую обработку данных для нормализации распределений значений, если они кажутся слишком асимметричными. Эта обработка помогает снизить систематическую ошибку и выявить выбросы.
При интеллектуальной оптимизации моделей числовые характеристики, превышающие определенный порог асимметрии, преобразуются для получения более нормального (или близкого к нормальному) распределения с помощью степенных преобразований. В частности, используется степенное преобразование Йео-Джонсона.
Разбиение числовых характеристик на группы
Определенные числовые характеристики могут содержать закономерности и распределения, которые трудно обрабатывать алгоритмами машинного обучения. При интеллектуальной оптимизации моделей эта проблема частично решается путем организации данных конкретных числовых характеристик в различные группы в зависимости от диапазонов их значений. Разбиение на группы выполняется для того, чтобы характеристики можно было преобразовать в категориальные характеристики.
После завершения разбиения на группы новые категориальные характеристики преобразуются в формат one-hot encoded и используются при обучении. Для получения дополнительной информации о кодировании категориальных признаков см. раздел Категориальное кодирование.
Взвешивание и выборка на уровне строк
Обнаружение и обработка аномалий
Аномалии — это значения данных, которые выходят за пределы диапазона, в котором их появление было бы разумно ожидать. Наличие некоторых выбросов в данных для обучения — обычное дело. Некоторые аномалии могут быть даже желательны как способ отражения реальных возможностей. В других случаях аномалии могут мешать обучению надежной модели.
При интеллектуальной оптимизации моделей Qlik Predict выявляет потенциальные аномалии. Строки, в которых появляются значения выбросов, затем обрабатываются с помощью системы взвешивания на базе алгоритмов. Если значение сильно подозревается на наличие аномалии, система взвешивания снижает влияние соответствующей строки в данных для обучения на модель.
После обучения модели вы получите уведомление о проценте строк из исходного набора данных для обучения, которые были обработаны как аномальные данные.
Для получения дополнительной информации см. раздел Обнаружение и обработка аномалий.
Балансировка классов
В наборе данных для обучения возможно более частое появление определенного значения (класса) по сравнению с другими. Это явление известно как дисбаланс классов. При наличии дисбаланса классов в данных полученные модели узнают больше о мажоритарном классе, чем о миноритарном, что влияет на точность прогнозирования.
При интеллектуальной оптимизации моделей Qlik Predict выполняет автоматическую балансировку классов для моделей бинарной классификации. Дисбаланс классов обнаруживается путем сравнения распределения значений для двух классов в целевом столбце. В частности, балансировка выполняется, когда соотношение между двумя классами составляет:
-
95% (или более) строк содержат один класс
-
5% (или менее) строк содержат другой класс
Во время балансировки классов выполняется избыточная выборка (oversampling) данных для обучения с целью улучшения распределения классов. Этот процесс является итеративным: тестируется ряд различных выходных соотношений для поиска оптимального баланса для эффективности модели.
После избыточной выборки полученный набор данных используется для обучения моделей в версии эксперимента.
Для получения более общей информации о балансировке классов см. раздел Балансировка классов.
Отключение интеллектуальной оптимизации
При отключенной интеллектуальной оптимизации вы оптимизируете обучение вручную. Ручная оптимизация может быть полезна, если требуется больший контроль над процессом обучения. В частности, можно запустить версию с интеллектуальной оптимизацией моделей, а затем отключить этот параметр, если потребуется внести небольшой набор ручных настроек.
Выполните следующие действия.
-
В эксперименте нажмите
Просмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Если вы уже запустили хотя бы одну версию эксперимента, нажмите Создать новую версию.
-
На панели разверните раздел Оптимизация моделей.
-
Переключитесь с варианта Интеллектуальная на Вручную.
Рекомендации
При работе с интеллектуальной оптимизацией моделей учитывайте следующее:
-
Использование интеллектуальной оптимизации моделей не гарантирует, что в результате обучения будут получены высококачественные модели. Этапы подготовки набора данных и конфигурации эксперимента также имеют важное значение для создания надежных моделей. Если у вас нет хорошо подготовленного набора данных или в конфигурации отсутствуют ключевые характеристики, эффективная работа моделей в производственных сценариях использования не гарантируется. Для получения дополнительной информации об этих этапах см. следующие разделы:
-
Когда для версии включена интеллектуальная оптимизация моделей, каждая модель из этой версии будет иметь отдельный набор включенных характеристик. С другой стороны, все модели из версии, обученной с помощью ручной оптимизации, будут иметь одинаковый набор включенных характеристик.
-
Интеллектуальная оптимизация моделей использует только те характеристики и алгоритмы, которые были включены в конфигурацию для этой версии.
Оптимизация гиперпараметров
Оптимизация гиперпараметров недоступна, когда включена интеллектуальная оптимизация моделей. Чтобы активировать оптимизацию гиперпараметров, необходимо установить оптимизацию моделей в значение Вручную.
Для получения дополнительной информации см. раздел Оптимизация гиперпараметров.
Пример
Пример, демонстрирующий преимущества интеллектуальной оптимизации моделей, см. в разделе Учебное пособие «Создание и визуализация данных прогнозирования».