Перейти к основному содержимому Перейти к дополнительному содержимому

Просмотр наблюдений о данных для обучения

В процессе добавления данных для обучения и выполнения версий обучения можно просматривать наблюдения о том, как обрабатываются данные. В столбце Наблюдения содержится информация о цели и признаках в эксперименте, например признаки, которые были отброшены, недоступны или закодированы посредством специальной обработки.

Столбец Наблюдения находится на вкладке Данные, когда активен СхемаВид схемы. Наблюдения в сокращенном виде также доступны в Таблица Виде данных. Наблюдения создаются в индивидуальном порядке для каждой модели, обученной в рамках эксперимента.

Столбец Наблюдения в Виде схемы

Наблюдения, отображаемые для каждого столбца признака в наборе данных для обучения

Наблюдения генерируются в следующих случаях:

  • после добавления или изменения данных для обучения, но до выполнения каких либо версий эксперимента;

  • после выполнения каждой версии эксперимента. Отдельный набор наблюдений создается для каждой обученной модели.

Наблюдения до и после выполнения версии могут отличаться. Это объясняется тем, что после начала обучения AutoML может предварительно обрабатывать данные и дополнительно диагностировать проблемы с этими данными. Для получения дополнительной информации см. раздел Автоматическая подготовка и преобразование данных.

Просмотр наблюдений до обучения

Перед выполнением версии эксперимента можно анализировать Наблюдения, чтобы посмотреть, как интерпретируются текущие данные для обучения. Эти наблюдения могут измениться после выполнения версии.

  1. Убедитесь, что в эксперименте добавлены те данные для обучения, которые требуется использовать для версии эксперимента.

  2. Откройте вкладку Данные.

  3. Убедитесь, что открыт Строки таблицы Вид схемы.

  4. Проанализируйте столбец Наблюдения. Подсказки предоставляют дополнительный контекст для наблюдений. Для получения дополнительных пояснений о значении каждого наблюдения см. раздел Интерпретация наблюдений для набора данных.

Просмотр наблюдений для модели

После завершения обучения моделей для версии эксперимента выберите модель и проанализируйте, как обрабатывались данные.

  1. Выполните версию эксперимента, а затем откройте вкладку Данные.

  2. Выберите модель в раскрывающемся списке на панели инструментов.

  3. Убедитесь, что открыт Строки таблицы Вид схемы.

  4. Проанализируйте столбец Наблюдения. Подсказки предоставляют дополнительный контекст для наблюдений. Для получения дополнительных пояснений о значении каждого наблюдения см. раздел Интерпретация наблюдений для набора данных.

Интерпретация наблюдений для набора данных

В таблице ниже приводятся дополнительные сведения о возможных наблюдениях, которые могут отображаться в схеме.

Наблюдения по набору данных на виде схемы
НаблюдениеЗначениеВлияние на конфигурациюКогда сделано наблюдениеДополнительные ссылки
КонстантаСтолбец содержит одинаковое значение во всех строках.Столбец не может использоваться в качестве цели или включенного признака.До и после выполнения версииКардинальность
Кодирование методом one-hot encodingТип признака является категориальным, и столбец содержит менее 14 уникальных значений.Не влияет на конфигурацию.До и после выполнения версииКатегориальное кодирование
Кодирование методом impact encodingТип признака является категориальным, и столбец содержит более 14 уникальных значений.Не влияет на конфигурацию.До и после выполнения версииКатегориальное кодирование
Высокая кардинальностьСтолбец содержит слишком много уникальных значений. Если он используется в качестве признака, это может отрицательно сказаться на производительности модели.Столбец не может использоваться в качестве цели. Он будет автоматически исключен как признак, но при необходимости его можно будет включить.До и после выполнения версииКардинальность
Разреженные данныеСтолбец содержит слишком много значений NULL.Столбец не может использоваться в качестве цели или включенного признака.До и после выполнения версииПодстановка значений NULL
Недостаточно представленный классСтолбец содержит класс с менее чем 10 строками.Столбец не может использоваться в качестве цели, но может быть включен в качестве признака.До и после выполнения версии-
<number of> автоматически созданных признаковСтолбец является родительским признаком, который можно использовать для автоматического создания признаков.Если этот родительский признак интерпретируется как признак даты, он автоматически удаляется из конфигурации. Рекомендуется вместо этого использовать признаки, автоматически созданные на его основе. Можно переопределить этот параметр, чтобы и включить родительский признак, а не признаки, созданные автоматически.До и после выполнения версииАвтоматическое создание признаков
автоматически созданный признакСтолбец является признаком, автоматически созданным на основе родительского признака даты. Он отсутствовал в исходном наборе данных.Во время обучения эксперимента можно удалить один или несколько таких автоматически созданных признаков. Если тип родительского признака меняется на категориальный, все автоматически созданные признаки удаляются.До и после выполнения версииАвтоматическое создание признаков
Не удалось обработать как датуСтолбец может включать информацию о дате и времени, но при этом не может использоваться для автоматического создания признаков.Признак опускается из конфигурации. Если раньше на основе этого родительского признака были автоматически созданы признаки, они удаляются из будущих версий эксперимента. Признак все равно можно использовать в эксперименте, но для этого необходимо изменить его тип на категориальный.После выполнения версииСоздание признаков даты
Возможен произвольный текстСтолбец может быть доступным для использования в качестве признака произвольного текста.Тип признака «Произвольный текст» назначен столбцу. Необходимо выполнить версию эксперимента, чтобы проверить, можно ли обработать признак как произвольный текст.До выполнения версииОбработка данных произвольного текста
Произвольный текстСтолбец подтвержден как содержащий произвольный текст. Его можно обработать как произвольный текст.Для признака не требуются дополнительные конфигурации.После выполнения версииОбработка данных произвольного текста
Не удалось обработать как произвольный текстПо результатам дальнейшего анализа столбец нельзя обработать как произвольный текст.Необходимо убрать признак из конфигурации для следующей версии эксперимента. Если признак имеет невысокую кардинальность, в качестве альтернативного решения, его тип можно изменить на категориальный.После выполнения версииОбработка данных произвольного текста
Целевая утечкаПодозревается, что на признак оказывает влияние утечка цели. Если это так, он включает информацию о целевом столбце, для которого выполняется прогнозирование. Признаки с утечкой цели могут создавать ложное чувство уверенности в производительности модели. В реальном прогнозировании они могут привести к очень низкой производительности модели.Этот признак не используется для обучения модели.После выполнения версииУтечка данных
Низкая важность перестановкиПризнак не оказывает большого (или вообще никакого) воздействия на прогнозы модели. Удаление таких признаков улучшает производительность модели путем уменьшения статистического шума.Этот признак не используется для обучения модели.После выполнения версииОбщие сведения о важности перестановки
С высокой корреляциейПризнак имеет очень высокую корреляцию с одним или несколькими другими признаками в эксперименте. При использовании признаков, сильно коррелированных друг с другом, снижается производительность модели.Этот признак не используется для обучения модели. Признак, с которым он сильно коррелируется, не отбрасывается из-за высокой корреляции, но может быть отброшен по другой причине, например, вследствие низкой важности перестановки.После выполнения версииКорреляция

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!