Автоматическая подготовка и преобразование данных
Выбранный для эксперимента набор данных автоматически предварительно обрабатывается, чтобы его можно было использовать для обучения модели. Этапы предварительной обработки включают подготовку и преобразование данных. Это позволяет повысить качество данных и получить модель, которая дает точные результаты.
Для предварительной обработки данных используются различные методы науки о данных. Большинство этапов выполняются по умолчанию и хорошо подходят для многих сценариев использования. Знание этих этапов по умолчанию, а также основных принципов поможет вам понять, что нужно сделать с данными для конкретного сценария использования, перед тем как использовать их для обучения модели.
Настройка эксперимента
До начала предварительной обработки AutoML выполняет несколько подготовительных действий и демонстрирует предварительный просмотр обработки данных. Выполняются следующие действия:
-
Классификация столбцов в наборе данных согласно типу признака: категориальный, числовой, дата или произвольный текст.
-
Типы данных Float (число с плавающей запятой), Double (двойное число) и Decimal (десятичная дробь) всегда считаются числовыми.
-
Столбцы с типом данных «строка», содержащие в среднем меньше 50 символов, классифицируются как категориальные.
-
Столбцы с типом данных «строка», содержащие в среднем 50 символов или больше, классифицируются как произвольный текст. Однако на данном этапе нельзя гарантировать, что эти столбцы смогут быть использованы в качестве признаков произвольного текста. В ходе предварительной обработки проверяются дополнительные требования. См. Этапы предварительной обработки.
-
Типы данных Integer (целое число) всегда считываются числовыми.
-
Типы данных Date (дата) и Timestamp (метка времени) всегда относятся к типу признака даты. В процессе настройки эксперимента AutoML демонстрирует предварительный просмотр признаков, которые можно автоматически создать на основе родительского признака даты.
-
-
Проверьте каждый столбец на разреженность, ограничения и высокую кардинальность. Столбец следует исключить в следующих случаях.
-
Столбец содержит более 50 процентов значений NULL. Удаление записей со значением NULL в признаке может привести к потере полезных примеров обучения. Чтобы сохранить примеры обучения, также можно использовать подстановку значений, но тогда запись будет лишь приближенной к реальной. Поэтому в большинстве случаев лучше исключить признаки с большим количеством значений NULL (более 50 процентов). Следует помнить, что 0 не считается значением NULL.
-
Столбец содержит одинаковое значение во всех строках (ограничение). Другими словами, столбец имеет низкую кардинальность. Признаки с одним единственным значением не имеют прогнозной ценности.
-
Столбец является категориальным и содержит более 90 процентов уникальных значений (высокая кардинальность). Слишком большое количество уникальных значений затрудняет обобщение модели при использовании набора данных, отличного от набора данных для обучения.
-
Можно скорректировать порядок разбора данных после начала предварительной обработки.
Этапы предварительной обработки
После выбора целевого столбца строки, в которых целевым значением является значение NULL, идентифицируются и отделяются, а оставшиеся строки, в которых целевое значение известно, становятся набором данных для обучения. Для принятия решений в следующих шагах используются только данные из набора данных для обучения. Этапы (вместе с метаданными) сохраняются и применяются к любым новым данным, на основе которых модель создает прогнозы.
Предварительная обработка включенных признаков выполняется каждый раз при запуске новой версии эксперимента.
-
Вычисление и сохранение среднего значения для числовых значений и значения MODE для категориальных значений.
-
Подстановка отсутствующих значений. Для получения дополнительной информации см. раздел Подстановка значений NULL.
-
Кодирование категориальных переменных.
-
Создание новых признаков из существующих столбцов в наборе данных. Такие новые автоматически созданные признаки улучшают производительность и прогностические возможности создаваемых моделей.
В столбцах, идентифицированных как возможный произвольный текст, проверяется среднее количество слов. Если столбец содержит в среднем больше пяти слов, его можно закодировать как признак произвольного текста с помощью функции автоматического создания признаков. В противном случае отображается предупреждение. Если признак не может быть использован как произвольный текст и при этом имеет высокую кардинальность, его следует исключить.
-
Вычисление и сохранение сводной статистики для каждого столбца, чтобы использовать ее для масштабирования признаков.
-
Стандартизация каждого столбца путем масштабирования признаков.
-
Применение автоматически отложенных данных и пятикратной перекрестной проверки. Для получения дополнительной информации см. раздел Отложенные данные и перекрестная проверка.