Настройка экспериментов
Настройка экспериментов заключается в выборе цели и признаков, которые модель будет использовать для прогнозирования цели. Также можно настроить ряд дополнительных параметров.
В качестве помощи при выборе цели анализируется исторический набор данных и отображается сводная статистика для каждого столбца в наборе данных. К набору данных применяются несколько этапов автоматической предварительной обработки, чтобы убедиться, что он содержит только подходящие данные. Для получения дополнительной информации о предварительной обработке данных см. раздел Автоматическая подготовка и преобразование данных.
После выполнения v1 можно при необходимости создать новые версии эксперимента, чтобы дополнительно усовершенствовать обучение модели. Для получения дополнительной информации см. раздел Уточнение моделей.
Требования и разрешения
Для получения информации о требованиях, предъявляемых к пользователю для работы с экспериментами машинного обучения, см. раздел Работа с экспериментами.
Виды
Вид по умолчанию — это вид схемы, где каждый столбец в наборе данных представлен строкой в схеме с информацией и статистикой. Чтобы получить дополнительную информацию и образцы данных для каждого столбца, можно также воспользоваться видом данных. Для переключения между видами нажмите и .
Нажмите , чтобы открыть или закрыть боковую панель Конфигурация эксперимента. Здесь можно найти информацию о вашем эксперименте и текущей конфигурации.
Выбор цели
Целевой столбец содержит значения, которые необходимо спрогнозировать с помощью модели машинного обучения. Целевой столбец можно изменить до запуска первого обучения. После этого он будет заблокирован для редактирования.
Выполните следующие действия.
-
Наведите курсор на столбец и нажмите на появившийся значок .
Целевой столбец теперь обозначается значком , а другие доступные столбцы выбираются автоматически в качестве признаков.
Когда цель выбрана, можно запустить первую версию эксперимента. Для получения дополнительной информации см. раздел Обучение экспериментов. На этом этапе можно выполнить дополнительную настройку, как описано ниже, или изменить конфигурацию после анализа результатов обучения.
Объяснения того, как интерпретируются и обрабатываются данные, отображаются при навигации в рамках обучения эксперимента. Для получения дополнительной информации см. раздел Общие наблюдения по данным для обучения.
Определение типа создаваемой модели
Столбец, выбранный в качестве цели определяет тип модели, которая будет создана в ходе эксперимента. Он, в свою очередь, участвует в определении того, какие алгоритмы используются для обучения модели. Некоторые столбцы в наборе данных могут быть недоступны для выбора в качестве цели эксперимента, или к ним могут применяться специальные методы обработки.
Типы моделей перечислены ниже:
-
Модель двоичной классификации
-
Модель классификации по нескольким классам
-
Регрессионная модель
В приведенной ниже таблице перечислены факторы в цели, определяющие используемый тип модели.
Тип модели | Количество различных значений в столбце | Требуемый тип признака | Дополнительная информация |
---|---|---|---|
Двоичная классификация | 2 | Любое | - |
Классификация по нескольким классам | 3-10 | Любое | Столбец, содержащий больше 10 различных нечисловых классов нельзя выбрать в качестве цели. |
Регрессия | Больше 10 | Числовой | - |
Выбор столбцов признаков
Определив цель, можно выбрать, какие из других доступных столбцов будут использоваться при обучении модели. Исключите все признаки, которые не должны присутствовать в модели. Обратите внимание, что столбцы исключенных признаков останутся в наборе данных, но не будут использоваться алгоритмом обучения.
Количество ячеек в наборе данных отображается в верхней части панели Конфигурация эксперимента. Если количество превышает ограничение, установленное для набора данных, можно исключить признаки, чтобы предотвратить превышение ограничения.
Столбцы признаков можно выбрать различными способами.
-
Вручную снимите флажки с тех признаков, которые не должны быть включены.
-
Нажмите Исключить все признаки, а затем выберите только те, которые необходимо включить.
-
Выполните поиск, а затем исключите или включите все признаки в отфильтрованном результате поиска.
-
После запуска первой версии эксперимента можно определить количество самых эффективных признаков для включения.
В процессе выбора признакам автоматически назначается тип. Возможные типы признаков:
-
Категориальный
-
Числовой
-
Дата
-
Произвольный текст
Тип признака назначается на основе данных, содержащихся в столбце признака. Если признак удовлетворяет определенным критериям, он может быть выбран в качестве основы для автоматически создаваемых признаков. При желании можно выбрать, должен ли признак использоваться для автоматического создания признаков. Для получения полных сведений об автоматическом создании признаков см. раздел Автоматическое создание признаков.
Некоторые столбцы в наборе данных могут быть недоступны для выбора в качестве признаков эксперимента, или к ним могут применяться специальные методы обработки. Объяснения того, как интерпретируются и обрабатываются данные, отображаются при навигации в рамках обучения эксперимента. Для получения дополнительной информации см. раздел Общие наблюдения по данным для обучения.
Выбор алгоритмов
Все доступные алгоритмы включены по умолчанию, а алгоритмы, которые не будут использоваться, можно исключить. Как правило, это делается в процессе уточнения модели после получения первых результатов обучения. Для получения дополнительной информации см. раздел Уточнение моделей.
Изменение типов признаков
При загрузке набора данных столбцы определяются как категориальные или числовые признаки, признаки даты или произвольного текста в зависимости от типа данных и других характеристик. В некоторых случаях может возникнуть необходимость изменить этот параметр.
Например, если дни недели представлены числами от 1 до 7, то каждое число представляет собой категориальное значение. По умолчанию оно определяется как ранжированное числовое значение непрерывного параметра, поэтому необходимо вручную изменить конфигурацию, чтобы оно определялось как категориальное. Кроме того, категориальный тип признака можно преобразовать в числовой тип признака.
Когда столбец идентифицируется как содержащий информацию о дате и времени, он используется в качестве основы для автоматического создания новых признаков. Когда это происходит, исходный столбец (родительский признак) рассматривается как имеющий тип признака даты. Для родительского признака можно назначить категориальный тип, вместо типа даты. Однако в таком случае будет невозможно использовать автоматически созданные признаки в обучении эксперимента.
Выполните следующие действия.
-
Нажмите в столбце Тип признака.
-
Выберите значение в списке.
Все столбцы с измененным типом признака отображаются на панели Конфигурация эксперимента в разделе Обработка данных.
Изменение набора данных
Можно изменить набор данных для обучения перед выполнением первой версии эксперимента, а также после выполнения любой версии.
В случае изменения набора данных до выполнения первой версии будет потеряна любая конфигурация, настроенная до изменения набора данных.
Выполните следующие действия.
Нажмите Изменить набор данных в разделе Данные для обучения на панели Конфигурация эксперимента.
Выберите новый набор данных.
Для получения дополнительной информации об изменении и обновлении набора данных во время доработки модели (после выполнения версии эксперимента) см. Изменение или обновление набора данных.
Настройка оптимизации гиперпараметров
Модель можно улучшить путем оптимизации гиперпараметров. Обратите внимание, что это дополнительная опция, которая может значительно увеличить время обучения. Для получения дополнительной информации см. раздел Оптимизация гиперпараметров.
Выполните следующие действия.
Разверните раздел Оптимизация модели на панели Конфигурация эксперимента.
Установите флажок в поле Оптимизация гиперпараметров.
При необходимости установите ограничение по времени для оптимизации. По умолчанию ограничение по времени составляет один час.
Общие наблюдения по данным для обучения
В зависимости от качества набора данных могут быть установлены ограничения на использование конкретных компонентов данных в конфигурации эксперимента. Столбец Наблюденияна виде схемы помогает определить конкретные характеристики полей данных и то, как они будут обрабатываться алгоритмами машинного обучения.
В таблице ниже приведены возможные наблюдения, которые могут отображаться в схеме.
Наблюдение | Значение | Влияние на конфигурацию |
---|---|---|
Константа | Столбец содержит одинаковое значение во всех строках. | Столбец не может использоваться в качестве цели или включенного признака. |
Кодирование методом one-hot encoding | Тип признака является категориальным, и столбец содержит менее 14 уникальных значений. | Не влияет на конфигурацию. |
Кодирование методом impact encoding | Тип признака является категориальным, и столбец содержит более 14 уникальных значений. | Не влияет на конфигурацию. |
Высокая кардинальность | Столбец содержит слишком много уникальных значений. Если он используется в качестве признака, это может отрицательно сказаться на эффективности модели. | Столбец не может использоваться в качестве цели. Он будет автоматически исключен как признак, но при необходимости его можно будет включить. |
Разреженные данные | Столбец содержит слишком много значений NULL. | Столбец не может использоваться в качестве цели или включенного признака. |
Недостаточно представленный класс | Столбец содержит класс с менее чем 10 строками. | Столбец не может использоваться в качестве цели, но может быть включен в качестве признака. |
<number of> автоматически созданных признаков | Столбец является родительским признаком, который можно использовать для автоматического создания признаков. | Если этот родительский признак интерпретируется как признак даты, он автоматически удаляется из конфигурации. Рекомендуется вместо этого использовать признаки, автоматически созданные на его основе. Можно переопределить этот параметр, чтобы и включить родительский признак, а не признаки, созданные автоматически. |
автоматически созданный признак | Столбец является признаком, автоматически созданным на основе родительского признака даты. Он отсутствовал в исходном наборе данных. | Во время обучения эксперимента можно удалить один или несколько таких автоматически созданных признаков. Если тип родительского признака меняется на категориальный, все автоматически созданные признаки удаляются. |
Не удалось обработать как дату | Столбец может включать информацию о дате и времени, но при этом не может использоваться для автоматического создания признаков. | Признак опускается из конфигурации. Если раньше на основе этого родительского признака были автоматически созданы признаки, они удаляются из будущих версий эксперимента. Признак все равно можно использовать в эксперименте, но для этого необходимо изменить его тип на категориальный. |
Возможен произвольный текст | Столбец может быть доступным для использования в качестве признака произвольного текста. | Тип признака «Произвольный текст» назначен столбцу. Необходимо выполнить версию эксперимента, чтобы проверить, можно ли обработать признак как произвольный текст. |
Произвольный текст | Столбец подтвержден как содержащий произвольный текст. Его можно обработать как произвольный текст. | Для признака не требуются дополнительные конфигурации. |
Не удалось обработать как произвольный текст | По результатам дальнейшего анализа столбец нельзя обработать как произвольный текст. | Необходимо убрать признак из конфигурации для следующей версии эксперимента. Если признак имеет невысокую кардинальность, в качестве альтернативного решения, его тип можно изменить на категориальный. |