Настройка экспериментов
Настройка экспериментов заключается в выборе цели и признаков, которые модель будет использовать для прогнозирования цели. Также можно настроить ряд дополнительных параметров.
В качестве помощи при выборе цели анализируется исторический набор данных и отображается сводная статистика для каждого столбца в наборе данных. К набору данных применяются несколько этапов автоматической предварительной обработки, чтобы убедиться, что он содержит только подходящие данные. Для получения дополнительной информации о предварительной обработке данных см. раздел Автоматическая подготовка и преобразование данных.
После выполнения v1 можно при необходимости создать новые версии эксперимента, чтобы дополнительно усовершенствовать обучение модели. Для получения дополнительной информации см. раздел Уточнение моделей.
Требования и разрешения
Для получения информации о требованиях, предъявляемых к пользователю для работы с экспериментами машинного обучения, см. раздел Работа с экспериментами.
Интерфейс
В следующих разделах описывается порядок навигации по интерфейсу эксперимента для настройки конфигурации эксперимента. Для получения дополнительной информации об интерфейсе см. раздел Навигация в интерфейсе эксперимента.
Навигация по вкладкам
Когда создается эксперимент, открывается вкладка Данные. Здесь можно настроить цель и признаки для эксперимента.
После выполнения хотя бы одной версии эксперимента становятся доступными другие вкладки. Эти другие вкладки позволяют анализировать модели, только что обученные в версии. Если требуется настроить последующие версии, используя другие выборки признаков, можно вернуться на вкладку Данные.
Вид схемы и Вид данных
На вкладке Данные можно переключаться между следующими видами:
-
Вид схемы: вид по умолчанию. В этом виде каждый столбец в наборе данных представлен строкой в схеме с информацией и статистикой.
-
Вид данных: это альтернативный вид, где можно просмотреть дополнительную информацию и образцы данных для каждого столбца.
Панель Конфигурация эксперимента
Щелкните Посмотреть конфигурацию, чтобы открыть панель, где можно дополнительно настроить обучение эксперимента. Панель можно открыть независимо от просматриваемой вкладки. Она содержит ряд дополнительных параметров конфигурации.
На панели конфигурации эксперимента доступны следующие действия.
-
Выберите цель перед обучением первой версии
-
Добавьте или удалите признаки
-
Настройте новую версию эксперимента
-
Выберите изменение или обновление набора данных для обучения
-
Добавьте или удалите алгоритмы
-
Измените параметры оптимизации модели
Выбор цели
Целевой столбец содержит значения, которые необходимо спрогнозировать с помощью модели машинного обучения. Целевой столбец можно изменить до запуска первого обучения. После этого он будет заблокирован для редактирования.
Выполните следующие действия.
Открыв Вид схемы или Вид данных, наведите указатель мыши на столбец.
Щелкните появившийся значок .
Целевой столбец теперь обозначается значком , а другие доступные столбцы выбираются автоматически в качестве признаков.
В качестве альтернативы цель можно выбрать на панели конфигурации обучения.
Когда цель выбрана, можно запустить первую версию эксперимента. Для получения дополнительной информации см. раздел Обучение экспериментов. На этом этапе можно выполнить дополнительную настройку, как описано ниже, или изменить конфигурацию после анализа результатов обучения.
Объяснения того, как интерпретируются и обрабатываются данные, отображаются по ходу обучения эксперимента. Для получения дополнительной информации см. раздел Интерпретация наблюдений для набора данных.
Определение типа создаваемой модели
Столбец, выбранный в качестве цели определяет тип модели, которая будет создана в ходе эксперимента. Он, в свою очередь, участвует в определении того, какие алгоритмы используются для обучения модели. Некоторые столбцы в наборе данных могут быть недоступны для выбора в качестве цели эксперимента, или к ним могут применяться специальные методы обработки.
Типы моделей перечислены ниже:
Модель двоичной классификации
Модель классификации по нескольким классам
Регрессионная модель
В приведенной ниже таблице перечислены факторы в цели, определяющие используемый тип модели.
Тип модели | Количество различных значений в столбце | Требуемый тип признака | Дополнительная информация |
---|---|---|---|
Двоичная классификация | 2 | Любое | - |
Классификация по нескольким классам | 3-10 | Любое | Столбец, содержащий больше 10 различных нечисловых классов нельзя выбрать в качестве цели. |
Регрессия | Больше 10 | Числовой | - |
Чтобы узнать, какой тип моделей обучает эксперимент, щелкните Посмотреть конфигурацию и разверните элемент Алгоритмы. Тип модели отображается в заголовке раздела.
Выбор столбцов признаков
Определив цель, можно выбрать, какие из других доступных столбцов будут использоваться при обучении модели. Исключите все признаки, которые не должны присутствовать в модели. Обратите внимание, что столбцы исключенных признаков останутся в наборе данных, но не будут использоваться алгоритмом обучения.
Количество ячеек в наборе данных отображается в верхней части панели «Конфигурация эксперимента». Если количество превышает ограничение, установленное для набора данных, можно исключить признаки, чтобы предотвратить превышение ограничения.
Столбцы признаков можно выбрать различными способами.
В Виде схемы и Виде данных
В главных видах доступны следующие действия:
Снимите флажок Включить все доступные признаки, а затем выберите только те признаки, которые необходимо включить.
Вручную снимите флажки с тех признаков, которые не должны быть включены.
Выполните поиск, а затем исключите или включите все признаки в отфильтрованном результате поиска.
На панели настройки обучения
Если развернута панель конфигурации эксперимента, доступны следующие действия.
Вручную снимите флажки с тех признаков, которые не должны быть включены.
После запуска первой версии эксперимента можно определить количество самых эффективных признаков для включения.
В процессе выбора признакам автоматически назначается тип. Возможные типы признаков:
Категориальный
Числовой
Дата
Произвольный текст
Тип признака назначается на основе данных, содержащихся в столбце признака. Если признак удовлетворяет определенным критериям, он может быть выбран в качестве основы для автоматически создаваемых признаков. При желании можно выбрать, должен ли признак использоваться для автоматического создания признаков. Для получения полных сведений об автоматическом создании признаков см. раздел Автоматическое создание признаков.
Некоторые столбцы в наборе данных могут быть недоступны для выбора в качестве признаков эксперимента, или к ним могут применяться специальные методы обработки. Объяснения того, как интерпретируются и обрабатываются данные, отображаются при навигации в рамках обучения эксперимента. Для получения дополнительной информации см. раздел Интерпретация наблюдений для набора данных.
Выбор алгоритмов
Все доступные алгоритмы включены по умолчанию, а алгоритмы, которые не будут использоваться, можно исключить. Как правило, это делается в процессе уточнения модели после получения первых результатов обучения. Для получения дополнительной информации см. раздел Уточнение моделей.
Изменение типов признаков
При загрузке набора данных столбцы определяются как категориальные или числовые признаки, признаки даты или произвольного текста в зависимости от типа данных и других характеристик. В некоторых случаях может возникнуть необходимость изменить этот параметр.
Например, если дни недели представлены числами от 1 до 7, то каждое число представляет собой категориальное значение. По умолчанию оно определяется как ранжированное числовое значение непрерывного параметра, поэтому необходимо вручную изменить конфигурацию, чтобы оно определялось как категориальное.
Когда столбец идентифицируется как содержащий информацию о дате и времени, он используется в качестве основы для автоматического создания новых признаков. Когда это происходит, исходный столбец (родительский признак) рассматривается как имеющий тип признака даты.
Для родительского признака можно назначить категориальный или числовой тип, вместо типа даты. Например, это полезно, когда признак определяется как дата, но его требуется обрабатывать как строку или число. Однако в таком случае будет невозможно использовать автоматически созданные признаки в обучении эксперимента.
Выполните следующие действия.
Откройте Вид схемы и найдите признак.
В столбце Тип признака для этого признака щелкните .
Выберите значение в списке.
В качестве альтернативы типы признаков можно изменять в Виде данных. Найдите признак, затем щелкните рядом с текущим типом признака. Выберите значение в списке.
Все столбцы с измененным типом признака отображаются на панели конфигурации эксперимента в разделе Обработка данных.
Влияние на прогнозы
Когда тип признака меняется вручную, а затем выполняется развертывание полученной модели, переопределенный тип будет применен к признаку в наборе данных для применения, который будет использоваться в прогнозах, сделанных с помощью этой модели.
Изменение набора данных
Можно изменить набор данных для обучения перед выполнением первой версии эксперимента, а также после выполнения любой версии.
В случае изменения набора данных до выполнения первой версии будет потеряна любая конфигурация, настроенная до изменения набора данных.
Выполните следующие действия.
В разделе Данные для обучения на панели конфигурации эксперимента нажмите Изменить набор данных.
Выберите новый набор данных.
Для получения дополнительной информации об изменении и обновлении набора данных во время доработки модели (после выполнения версии эксперимента) см. Изменение или обновление набора данных.
Настройка оптимизации модели
Можно настроить следующие параметры для оптимизации моделей:
Включение или выключение интеллектуальной оптимизации модели
Включение и выключение оптимизации гиперпараметров
Включение или выключение обучения с учетом времени
Эти параметры можно включать и выключать для каждой выполняемой версии эксперимента.
Настройка интеллектуальной оптимизации
По умолчанию в эксперименте используется интеллектуальная оптимизация моделей. Благодаря интеллектуальной оптимизации моделей AutoML выполняет процесс уточнения модели автоматически, итерационно выбирая признаки и применяя расширенные преобразования к данным.
Для получения дополнительной информации об интеллектуальной оптимизации см. раздел Интеллектуальная оптимизация модели.
Этот параметр можно отключить, чтобы уточнять обучаемые модели вручную. Например, может потребоваться начать обучение модели с интеллектуальной оптимизацией, а затем переключиться в ручной режим уточнения для версии 2, чтобы дополнительно настроить конфигурацию.
Выполните следующие действия.
Щелкните Посмотреть конфигурацию.
Если уже выполнена хотя бы одна версия эксперимента, нажмите Новая версия.
На панели разверните пункт Оптимизация модели.
Переключитесь из режима Интеллектуальная в режим Ручная.
С помощью ползунка установите максимум продолжительности обучения.
Настройка оптимизации гиперпараметров
Модели можно улучшать путем оптимизации гиперпараметров. Обратите внимание, что это дополнительная опция, которая может значительно увеличить время обучения. Оптимизация гиперпараметров доступна, если выключена интеллектуальная оптимизация.
Для получения дополнительной информации см. раздел Оптимизация гиперпараметров.
Выполните следующие действия.
Щелкните Посмотреть конфигурацию.
Если уже выполнена хотя бы одна версия эксперимента, нажмите Новая версия.
На панели разверните пункт Оптимизация модели.
Переключитесь из режима Интеллектуальная в режим Ручная.
Установите флажок в поле Оптимизация гиперпараметров.
При необходимости установите ограничение по времени для оптимизации. По умолчанию ограничение по времени составляет один час.
Конфигурация обучения с учетом времени
Если требуется, чтобы модели обучались с учетом измерения временных рядов, активируйте обучение с учетом времени для версии эксперимента. Для использования этого параметра необходимо, чтобы в наборе данных был столбец, содержащий соответствующую информацию о временном ряде.
Когда включено обучение с учетом времени, AutoML использует специализированные процессы перекрестной проверки и подстановки нулевых значений для обучения моделей.
Для получения дополнительной информации см. разделы Создание моделей с учетом времени и Перекрестная проверка на основе времени.
Выполните следующие действия.
Щелкните Посмотреть конфигурацию.
Если уже выполнена хотя бы одна версия эксперимента, нажмите Новая версия.
На панели разверните пункт Оптимизация модели.
В разделе Разделение данных на тестирование и обучение на основе времени выберите Индекс даты, который будет использоваться для сортировки данных.
Просмотр наблюдений о данных для обучения
На вкладке Данные эксперимента можно просматривать наблюдения об обработке данных для обучения. Эта информация доступна в столбце Наблюдения в Виде схемы. Отображаемая информация зависит от того, выполнялась ли версия с использованием текущих данных для обучения. Изменения в столбце Наблюдения могут помочь определить, почему признаки могут быть недоступны для использования или почему они автоматически отброшены.
Для получения дополнительной информации о значении каждого наблюдения см. раздел Интерпретация наблюдений для набора данных.