Перейти к основному содержимому Перейти к дополнительному содержимому

Автоматическая подготовка и преобразование данных

Выбранный для эксперимента набор данных автоматически предварительно обрабатывается, чтобы его можно было использовать для обучения модели. Этапы предварительной обработки включают подготовку и преобразование данных. Это позволяет повысить качество данных и получить модель, которая дает точные результаты.

Для предварительной обработки данных используются различные методы науки о данных. Большинство этапов выполняются по умолчанию и хорошо подходят для многих сценариев использования. Знание этих этапов по умолчанию, а также основных принципов поможет вам понять, что нужно сделать с данными для конкретного сценария использования, перед тем как использовать их для обучения модели.

Сведения об этапах предварительной обработки отображаются на панели конфигурации эксперимента

Раздел предварительной обработки AutoML.

Настройка эксперимента

До начала предварительной обработки AutoML выполняет несколько подготовительных действий и демонстрирует предварительный просмотр обработки данных. Выполняются следующие действия:

  1. Классификация столбцов в наборе данных согласно типу признака: категориальный, числовой, дата или произвольный текст.

    • Типы данных Float (число с плавающей запятой), Double (двойное число) и Decimal (десятичная дробь) всегда считаются числовыми.

    • Столбцы с типом данных «строка», содержащие в среднем меньше 50 символов, классифицируются как категориальные.

    • Столбцы с типом данных «строка», содержащие в среднем 50 символов или больше, классифицируются как произвольный текст. Однако на данном этапе нельзя гарантировать, что эти столбцы смогут быть использованы в качестве признаков произвольного текста. В ходе предварительной обработки проверяются дополнительные требования. См. Этапы предварительной обработки.

    • Типы данных Integer (целое число) всегда считываются числовыми.

    • Типы данных Date (дата) и Timestamp (метка времени) всегда относятся к типу признака даты. В процессе настройки эксперимента AutoML демонстрирует предварительный просмотр признаков, которые можно автоматически создать на основе родительского признака даты.

  2. Проверьте каждый столбец на разреженность, ограничения и высокую кардинальность. Столбец следует исключить в следующих случаях.

    • Столбец содержит более 50 процентов значений NULL. Удаление записей со значением NULL в признаке может привести к потере полезных примеров обучения. Чтобы сохранить примеры обучения, также можно использовать подстановку значений, но тогда запись будет лишь приближенной к реальной. Поэтому в большинстве случаев лучше исключить признаки с большим количеством значений NULL (более 50 процентов). Следует помнить, что 0 не считается значением NULL.

    • Столбец содержит одинаковое значение во всех строках (ограничение). Другими словами, столбец имеет низкую кардинальность. Признаки с одним единственным значением не имеют прогнозной ценности.

    • Столбец является категориальным и содержит более 90 процентов уникальных значений (высокая кардинальность). Слишком большое количество уникальных значений затрудняет обобщение модели при использовании набора данных, отличного от набора данных для обучения.

Можно скорректировать порядок разбора данных после начала предварительной обработки.

Этапы предварительной обработки

После выбора целевого столбца строки, в которых целевым значением является значение NULL, идентифицируются и отделяются, а оставшиеся строки, в которых целевое значение известно, становятся набором данных для обучения. Для принятия решений в следующих шагах используются только данные из набора данных для обучения. Этапы (вместе с метаданными) сохраняются и применяются к любым новым данным, на основе которых модель создает прогнозы.

Предварительная обработка включенных признаков выполняется каждый раз при запуске новой версии эксперимента.

  1. Вычисление и сохранение среднего значения для числовых значений и значения MODE для категориальных значений.

  2. Подстановка отсутствующих значений. Для получения дополнительной информации см. раздел Подстановка значений NULL.

  3. Кодирование категориальных переменных.

  4. Создание новых признаков из существующих столбцов в наборе данных. Такие новые автоматически созданные признаки улучшают производительность и прогностические возможности создаваемых моделей.

    В столбцах, идентифицированных как возможный произвольный текст, проверяется среднее количество слов. Если столбец содержит в среднем больше пяти слов, его можно закодировать как признак произвольного текста с помощью функции автоматического создания признаков. В противном случае отображается предупреждение. Если признак не может быть использован как произвольный текст и при этом имеет высокую кардинальность, его следует исключить.

  5. Вычисление и сохранение сводной статистики для каждого столбца, чтобы использовать ее для масштабирования признаков.

  6. Стандартизация каждого столбца путем масштабирования признаков.

  7. Применение автоматически отложенных данных и пятикратной перекрестной проверки. Для получения дополнительной информации см. раздел Отложенные данные и перекрестная проверка.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!