Перейти к основному содержимому Перейти к дополнительному содержимому

Настройка экспериментов

Настройка экспериментов заключается в выборе цели и признаков, которые модель будет использовать для прогнозирования цели. Также можно настроить ряд дополнительных параметров.

В качестве помощи при выборе цели анализируется исторический набор данных и отображается сводная статистика для каждого столбца в наборе данных. К набору данных применяются несколько этапов автоматической предварительной обработки, чтобы убедиться, что он содержит только подходящие данные. Для получения дополнительной информации о предварительной обработке данных см. раздел Автоматическая подготовка и преобразование данных.

После выполнения v1 можно при необходимости создать новые версии эксперимента, чтобы дополнительно усовершенствовать обучение модели. Для получения дополнительной информации см. раздел Уточнение моделей.

Требования и разрешения

Для получения информации о требованиях, предъявляемых к пользователю для работы с экспериментами машинного обучения, см. раздел Работа с экспериментами.

Виды

Вид по умолчанию — это вид схемы, где каждый столбец в наборе данных представлен строкой в схеме с информацией и статистикой. Чтобы получить дополнительную информацию и образцы данных для каждого столбца, можно также воспользоваться видом данных. Для переключения между видами нажмите Столбцы и Вид данных.

Предварительный просмотр набора данных на виде схемы

Вид схемы AutoML.

Предварительный просмотр набора данных на виде данных

Вид данных AutoML.

Нажмите Панель конфигурации, чтобы открыть или закрыть боковую панель Конфигурация эксперимента. Здесь можно найти информацию о вашем эксперименте и текущей конфигурации.

На боковой панели отображается конфигурация эксперимента для текущей версии

Боковая панель конфигурации эксперимента AutoML.

Выбор цели

Целевой столбец содержит значения, которые необходимо спрогнозировать с помощью модели машинного обучения. Целевой столбец можно изменить до запуска первого обучения. После этого он будет заблокирован для редактирования.

  • Наведите курсор на столбец и нажмите на появившийся значок Цель.

    Целевой столбец теперь обозначается значком Цель, а другие доступные столбцы выбираются автоматически в качестве признаков.

Выбор цели

Столбец набора данных со значком цели.

Когда цель выбрана, можно запустить первую версию эксперимента. Для получения дополнительной информации см. раздел Обучение экспериментов. На этом этапе можно выполнить дополнительную настройку, как описано ниже, или изменить конфигурацию после анализа результатов обучения.

Объяснения того, как интерпретируются и обрабатываются данные, отображаются при навигации в рамках обучения эксперимента. Для получения дополнительной информации см. раздел Общие наблюдения по данным для обучения.

Определение типа создаваемой модели

Столбец, выбранный в качестве цели определяет тип модели, которая будет создана в ходе эксперимента. Он, в свою очередь, участвует в определении того, какие алгоритмы используются для обучения модели. Некоторые столбцы в наборе данных могут быть недоступны для выбора в качестве цели эксперимента, или к ним могут применяться специальные методы обработки.

Типы моделей перечислены ниже:

  • Модель двоичной классификации

  • Модель классификации по нескольким классам

  • Регрессионная модель

В приведенной ниже таблице перечислены факторы в цели, определяющие используемый тип модели.

Характеристики целевого столбца, определяющие тип модели
Тип модели Количество различных значений в столбце Требуемый тип признака Дополнительная информация
Двоичная классификация 2 Любое -
Классификация по нескольким классам 3-10 Любое Столбец, содержащий больше 10 различных нечисловых классов нельзя выбрать в качестве цели.
Регрессия Больше 10 Числовой -

Выбор столбцов признаков

Определив цель, можно выбрать, какие из других доступных столбцов будут использоваться при обучении модели. Исключите все признаки, которые не должны присутствовать в модели. Обратите внимание, что столбцы исключенных признаков останутся в наборе данных, но не будут использоваться алгоритмом обучения.

Количество ячеек в наборе данных отображается в верхней части панели Конфигурация эксперимента. Если количество превышает ограничение, установленное для набора данных, можно исключить признаки, чтобы предотвратить превышение ограничения.

Столбцы признаков можно выбрать различными способами.

  • Вручную снимите флажки с тех признаков, которые не должны быть включены.

  • Нажмите Исключить все признаки, а затем выберите только те, которые необходимо включить.

  • Выполните поиск, а затем исключите или включите все признаки в отфильтрованном результате поиска.

  • После запуска первой версии эксперимента можно определить количество самых эффективных признаков для включения.

Раздел признаков в конфигурации эксперимента

Раздел признаков на боковой панели конфигурации эксперимента AutoML.

В процессе выбора признакам автоматически назначается тип. Возможные типы признаков:

  • Категориальный

  • Числовой

  • Дата

  • Произвольный текст

Тип признака назначается на основе данных, содержащихся в столбце признака. Если признак удовлетворяет определенным критериям, он может быть выбран в качестве основы для автоматически создаваемых признаков. При желании можно выбрать, должен ли признак использоваться для автоматического создания признаков. Для получения полных сведений об автоматическом создании признаков см. раздел Автоматическое создание признаков.

Некоторые столбцы в наборе данных могут быть недоступны для выбора в качестве признаков эксперимента, или к ним могут применяться специальные методы обработки. Объяснения того, как интерпретируются и обрабатываются данные, отображаются при навигации в рамках обучения эксперимента. Для получения дополнительной информации см. раздел Общие наблюдения по данным для обучения.

Выбор алгоритмов

Все доступные алгоритмы включены по умолчанию, а алгоритмы, которые не будут использоваться, можно исключить. Как правило, это делается в процессе уточнения модели после получения первых результатов обучения. Для получения дополнительной информации см. раздел Уточнение моделей.

Раздел алгоритмов в конфигурации эксперимента

Раздел алгоритмов на боковой панели конфигурации эксперимента AutoML.

Изменение типов признаков

При загрузке набора данных столбцы определяются как категориальные или числовые признаки, признаки даты или произвольного текста в зависимости от типа данных и других характеристик. В некоторых случаях может возникнуть необходимость изменить этот параметр.

Например, если дни недели представлены числами от 1 до 7, то каждое число представляет собой категориальное значение. По умолчанию оно определяется как ранжированное числовое значение непрерывного параметра, поэтому необходимо вручную изменить конфигурацию, чтобы оно определялось как категориальное. Кроме того, категориальный тип признака можно преобразовать в числовой тип признака.

Когда столбец идентифицируется как содержащий информацию о дате и времени, он используется в качестве основы для автоматического создания новых признаков. Когда это происходит, исходный столбец (родительский признак) рассматривается как имеющий тип признака даты. Для родительского признака можно назначить категориальный тип, вместо типа даты. Однако в таком случае будет невозможно использовать автоматически созданные признаки в обучении эксперимента.

  1. Нажмите в столбце Тип признака.

  2. Выберите значение в списке.

Все столбцы с измененным типом признака отображаются на панели Конфигурация эксперимента в разделе Обработка данных.

Изменение набора данных

Можно изменить набор данных для обучения перед выполнением первой версии эксперимента, а также после выполнения любой версии.

В случае изменения набора данных до выполнения первой версии будет потеряна любая конфигурация, настроенная до изменения набора данных.

  1. Нажмите Изменить набор данных в разделе Данные для обучения на панели Конфигурация эксперимента.

  2. Выберите новый набор данных.

Для получения дополнительной информации об изменении и обновлении набора данных во время доработки модели (после выполнения версии эксперимента) см. Изменение или обновление набора данных.

Настройка оптимизации гиперпараметров

Модель можно улучшить путем оптимизации гиперпараметров. Обратите внимание, что это дополнительная опция, которая может значительно увеличить время обучения. Для получения дополнительной информации см. раздел Оптимизация гиперпараметров.

Раздел оптимизации модели в конфигурации эксперимента

Раздел оптимизации модели на боковой панели конфигурации эксперимента AutoML.
  1. Разверните раздел Оптимизация модели на панели Конфигурация эксперимента.

  2. Установите флажок в поле Оптимизация гиперпараметров.

  3. При необходимости установите ограничение по времени для оптимизации. По умолчанию ограничение по времени составляет один час.

Общие наблюдения по данным для обучения

В зависимости от качества набора данных могут быть установлены ограничения на использование конкретных компонентов данных в конфигурации эксперимента. Столбец Наблюденияна виде схемы помогает определить конкретные характеристики полей данных и то, как они будут обрабатываться алгоритмами машинного обучения.

В таблице ниже приведены возможные наблюдения, которые могут отображаться в схеме.

Наблюдения по набору данных на виде схемы
НаблюдениеЗначениеВлияние на конфигурацию
КонстантаСтолбец содержит одинаковое значение во всех строках.Столбец не может использоваться в качестве цели или включенного признака.
Кодирование методом one-hot encodingТип признака является категориальным, и столбец содержит менее 14 уникальных значений.Не влияет на конфигурацию.
Кодирование методом impact encodingТип признака является категориальным, и столбец содержит более 14 уникальных значений.Не влияет на конфигурацию.
Высокая кардинальностьСтолбец содержит слишком много уникальных значений. Если он используется в качестве признака, это может отрицательно сказаться на эффективности модели.Столбец не может использоваться в качестве цели. Он будет автоматически исключен как признак, но при необходимости его можно будет включить.
Разреженные данныеСтолбец содержит слишком много значений NULL.Столбец не может использоваться в качестве цели или включенного признака.
Недостаточно представленный классСтолбец содержит класс с менее чем 10 строками.Столбец не может использоваться в качестве цели, но может быть включен в качестве признака.
<number of> автоматически созданных признаковСтолбец является родительским признаком, который можно использовать для автоматического создания признаков.Если этот родительский признак интерпретируется как признак даты, он автоматически удаляется из конфигурации. Рекомендуется вместо этого использовать признаки, автоматически созданные на его основе. Можно переопределить этот параметр, чтобы и включить родительский признак, а не признаки, созданные автоматически.
автоматически созданный признакСтолбец является признаком, автоматически созданным на основе родительского признака даты. Он отсутствовал в исходном наборе данных.Во время обучения эксперимента можно удалить один или несколько таких автоматически созданных признаков. Если тип родительского признака меняется на категориальный, все автоматически созданные признаки удаляются.
Не удалось обработать как датуСтолбец может включать информацию о дате и времени, но при этом не может использоваться для автоматического создания признаков.Признак опускается из конфигурации. Если раньше на основе этого родительского признака были автоматически созданы признаки, они удаляются из будущих версий эксперимента. Признак все равно можно использовать в эксперименте, но для этого необходимо изменить его тип на категориальный.
Возможен произвольный текстСтолбец может быть доступным для использования в качестве признака произвольного текста.Тип признака «Произвольный текст» назначен столбцу. Необходимо выполнить версию эксперимента, чтобы проверить, можно ли обработать признак как произвольный текст.
Произвольный текстСтолбец подтвержден как содержащий произвольный текст. Его можно обработать как произвольный текст.Для признака не требуются дополнительные конфигурации.
Не удалось обработать как произвольный текстПо результатам дальнейшего анализа столбец нельзя обработать как произвольный текст.Необходимо убрать признак из конфигурации для следующей версии эксперимента. Если признак имеет невысокую кардинальность, в качестве альтернативного решения, его тип можно изменить на категориальный.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!