Просмотр наблюдений о данных для обучения
В процессе добавления данных для обучения и выполнения версий обучения можно просматривать наблюдения о том, как обрабатываются данные. В столбце Наблюдения содержится информация о цели и признаках в эксперименте, например признаки, которые были отброшены, недоступны или закодированы посредством специальной обработки.
Столбец Наблюдения находится на вкладке Данные, когда активен Вид схемы. Наблюдения в сокращенном виде также доступны в Виде данных. Наблюдения создаются в индивидуальном порядке для каждой модели, обученной в рамках эксперимента.
Наблюдения генерируются в следующих случаях:
-
после добавления или изменения данных для обучения, но до выполнения каких либо версий эксперимента;
-
после выполнения каждой версии эксперимента. Отдельный набор наблюдений создается для каждой обученной модели.
Наблюдения до и после выполнения версии могут отличаться. Это объясняется тем, что после начала обучения AutoML может предварительно обрабатывать данные и дополнительно диагностировать проблемы с этими данными. Для получения дополнительной информации см. раздел Автоматическая подготовка и преобразование данных.
Просмотр наблюдений до обучения
Перед выполнением версии эксперимента можно анализировать Наблюдения, чтобы посмотреть, как интерпретируются текущие данные для обучения. Эти наблюдения могут измениться после выполнения версии.
Выполните следующие действия.
Убедитесь, что в эксперименте добавлены те данные для обучения, которые требуется использовать для версии эксперимента.
Откройте вкладку Данные.
Убедитесь, что открыт Вид схемы.
Проанализируйте столбец Наблюдения. Подсказки предоставляют дополнительный контекст для наблюдений. Для получения дополнительных пояснений о значении каждого наблюдения см. раздел Интерпретация наблюдений для набора данных.
Просмотр наблюдений для модели
После завершения обучения моделей для версии эксперимента выберите модель и проанализируйте, как обрабатывались данные.
Выполните следующие действия.
Выполните версию эксперимента, а затем откройте вкладку Данные.
Выберите модель в раскрывающемся списке на панели инструментов.
Убедитесь, что открыт Вид схемы.
Проанализируйте столбец Наблюдения. Подсказки предоставляют дополнительный контекст для наблюдений. Для получения дополнительных пояснений о значении каждого наблюдения см. раздел Интерпретация наблюдений для набора данных.
Интерпретация наблюдений для набора данных
В таблице ниже приводятся дополнительные сведения о возможных наблюдениях, которые могут отображаться в схеме.
Наблюдение | Значение | Влияние на конфигурацию | Когда сделано наблюдение | Дополнительные ссылки |
---|---|---|---|---|
Константа | Столбец содержит одинаковое значение во всех строках. | Столбец не может использоваться в качестве цели или включенного признака. | До и после выполнения версии | Кардинальность |
Кодирование методом one-hot encoding | Тип признака является категориальным, и столбец содержит менее 14 уникальных значений. | Не влияет на конфигурацию. | До и после выполнения версии | Категориальное кодирование |
Кодирование методом impact encoding | Тип признака является категориальным, и столбец содержит более 14 уникальных значений. | Не влияет на конфигурацию. | До и после выполнения версии | Категориальное кодирование |
Высокая кардинальность | Столбец содержит слишком много уникальных значений. Если он используется в качестве признака, это может отрицательно сказаться на производительности модели. | Столбец не может использоваться в качестве цели. Он будет автоматически исключен как признак, но при необходимости его можно будет включить. | До и после выполнения версии | Кардинальность |
Разреженные данные | Столбец содержит слишком много значений NULL. | Столбец не может использоваться в качестве цели или включенного признака. | До и после выполнения версии | Подстановка значений NULL |
Недостаточно представленный класс | Столбец содержит класс с менее чем 10 строками. | Столбец не может использоваться в качестве цели, но может быть включен в качестве признака. | До и после выполнения версии | - |
<number of> автоматически созданных признаков | Столбец является родительским признаком, который можно использовать для автоматического создания признаков. | Если этот родительский признак интерпретируется как признак даты, он автоматически удаляется из конфигурации. Рекомендуется вместо этого использовать признаки, автоматически созданные на его основе. Можно переопределить этот параметр, чтобы и включить родительский признак, а не признаки, созданные автоматически. | До и после выполнения версии | Автоматическое создание признаков |
автоматически созданный признак | Столбец является признаком, автоматически созданным на основе родительского признака даты. Он отсутствовал в исходном наборе данных. | Во время обучения эксперимента можно удалить один или несколько таких автоматически созданных признаков. Если тип родительского признака меняется на категориальный, все автоматически созданные признаки удаляются. | До и после выполнения версии | Автоматическое создание признаков |
Не удалось обработать как дату | Столбец может включать информацию о дате и времени, но при этом не может использоваться для автоматического создания признаков. | Признак опускается из конфигурации. Если раньше на основе этого родительского признака были автоматически созданы признаки, они удаляются из будущих версий эксперимента. Признак все равно можно использовать в эксперименте, но для этого необходимо изменить его тип на категориальный. | После выполнения версии | Создание признаков даты |
Возможен произвольный текст | Столбец может быть доступным для использования в качестве признака произвольного текста. | Тип признака «Произвольный текст» назначен столбцу. Необходимо выполнить версию эксперимента, чтобы проверить, можно ли обработать признак как произвольный текст. | До выполнения версии | Обработка данных произвольного текста |
Произвольный текст | Столбец подтвержден как содержащий произвольный текст. Его можно обработать как произвольный текст. | Для признака не требуются дополнительные конфигурации. | После выполнения версии | Обработка данных произвольного текста |
Не удалось обработать как произвольный текст | По результатам дальнейшего анализа столбец нельзя обработать как произвольный текст. | Необходимо убрать признак из конфигурации для следующей версии эксперимента. Если признак имеет невысокую кардинальность, в качестве альтернативного решения, его тип можно изменить на категориальный. | После выполнения версии | Обработка данных произвольного текста |
Целевая утечка | Подозревается, что на признак оказывает влияние утечка цели. Если это так, он включает информацию о целевом столбце, для которого выполняется прогнозирование. Признаки с утечкой цели могут создавать ложное чувство уверенности в производительности модели. В реальном прогнозировании они могут привести к очень низкой производительности модели. | Этот признак не используется для обучения модели. | После выполнения версии | Утечка данных |
Низкая важность перестановки | Признак не оказывает большого (или вообще никакого) воздействия на прогнозы модели. Удаление таких признаков улучшает производительность модели путем уменьшения статистического шума. | Этот признак не используется для обучения модели. | После выполнения версии | Общие сведения о важности перестановки |
С высокой корреляцией | Признак имеет очень высокую корреляцию с одним или несколькими другими признаками в эксперименте. При использовании признаков, сильно коррелированных друг с другом, снижается производительность модели. | Этот признак не используется для обучения модели. Признак, с которым он сильно коррелируется, не отбрасывается из-за высокой корреляции, но может быть отброшен по другой причине, например, вследствие низкой важности перестановки. | После выполнения версии | Корреляция |