Автоматическая подготовка и преобразование данных

Выбранный для эксперимента набор данных автоматически предварительно обрабатывается, чтобы его можно было использовать для обучения модели. Этапы предварительной обработки включают подготовку и преобразование данных. Это позволяет повысить качество данных и получить модель, которая дает точные результаты.

Для предварительной обработки данных используются различные методы науки о данных. Большинство этапов выполняются по умолчанию и хорошо подходят для многих сценариев использования. Знание этих этапов по умолчанию, а также основных принципов поможет вам понять, что нужно сделать с данными для конкретного сценария использования, перед тем как использовать их для обучения модели.

Настройка эксперимента

До начала предварительной обработки Qlik Predict выполняет несколько подготовительных действий и показывает обработку данных. Некоторые шаги зависят от типа эксперимента и других факторов. Могут применяться следующие шаги:

Классификация столбцов в наборе данных согласно типу признака: категориальный, числовой, дата или произвольный текст.
- Типы данных Float (число с плавающей запятой), Double (двойное число) и Decimal (десятичная дробь) всегда считаются числовыми.
- Столбцы с типом данных «строка», содержащие в среднем меньше 50 символов, классифицируются как категориальные.
- Столбцы с типом данных «строка», содержащие в среднем 50 символов или больше, классифицируются как произвольный текст. Однако на данном этапе нельзя гарантировать, что эти столбцы смогут быть использованы в качестве признаков произвольного текста. В ходе предварительной обработки проверяются дополнительные требования. См. Этапы предварительной обработки.
- Типы данных Integer (целое число) всегда считываются числовыми.
- Типы данных Date (дата) и Timestamp (метка времени) всегда относятся к типу признака даты. В процессе настройки эксперимента Qlik Predict показывает окно с автоматически созданными признаками, которые можно было бы получить из родительского признака даты.
Проверьте каждый столбец на разреженность, ограничения и высокую кардинальность. Столбец следует исключить в следующих случаях.
- Столбец содержит более 50 процентов значений NULL. Удаление записей со значением NULL в признаке может привести к потере полезных примеров обучения. Чтобы сохранить примеры обучения, также можно использовать подстановку значений, но тогда запись будет лишь приближенной к реальной. Поэтому в большинстве случаев лучше исключить признаки с большим количеством значений NULL (более 50 процентов). Следует помнить, что 0 не считается значением NULL.
- Столбец содержит одинаковое значение во всех строках (ограничение). Другими словами, столбец имеет низкую кардинальность. Признаки с одним единственным значением не имеют прогнозной ценности.
- Столбец является категориальным и содержит более 90 процентов уникальных значений (высокая кардинальность). Слишком большое количество уникальных значений затрудняет обобщение модели при использовании набора данных, отличного от набора данных для обучения.

Можно скорректировать порядок разбора данных после начала предварительной обработки.

Этапы предварительной обработки

Если выбран целевой столбец, следующие шаги зависят от типа эксперимента. В экспериментах классификации и регрессии определяются и отделяются строки с целевым значением NULL; остальные строки, в которых целевое значение известно, являются обучающим набором данных. Для экспериментов с временными рядами отсутствующие целевые значения интерполируются.

Для принятия решений в следующих шагах используются только данные из набора данных для обучения. Этапы (вместе с метаданными) сохраняются и применяются к любым новым данным, на основе которых модель создает прогнозы.

Предварительная обработка включенных признаков выполняется каждый раз при запуске новой версии эксперимента. Некоторые шаги зависят от типа эксперимента и других факторов.

Вычисление и сохранение среднего значения для числовых значений и значения MODE для категориальных значений.
Подстановка отсутствующих значений. Для получения дополнительной информации см. раздел Подстановка нулей.
Кодирование категориальных переменных.
В моделях временных рядов выполняется ряд шагов, позволяющих проверить свойства эксперимента, заданные пользователем, и получить дополнительную информацию после завершения обучения:
- Определяется максимальное окно прогнозирования.
- Подтверждается интервал индекса даты.
- Выбранные пользователем целевые группировки проверяются; если целевые группировки не указаны, они, если возможно, определяются по включенным категориальным признакам.
Создание новых признаков из существующих столбцов в наборе данных. Такие новые автоматически созданные признаки улучшают производительность и прогностические возможности создаваемых моделей.

В столбцах, идентифицированных как возможный произвольный текст, проверяется среднее количество слов. Если столбец содержит в среднем больше пяти слов, его можно закодировать как признак произвольного текста с помощью функции автоматического создания признаков. В противном случае отображается предупреждение. Если признак не может быть использован как произвольный текст и при этом имеет высокую кардинальность, его следует исключить.
Вычисление и сохранение сводной статистики для каждого столбца, чтобы использовать ее для масштабирования признаков.
Стандартизация каждого столбца путем масштабирования признаков.
Выполните анализ характеристик, которые были выбраны для обнаружения предвзятости, возвращая метрики предвзятости данных и соответствующие аналитические данные. Для получения дополнительной информации см. раздел Обнаружение предвзятости в моделях машинного обучения.
Применение автоматически отложенных данных и пятикратной перекрестной проверки. Для получения дополнительной информации см. раздел Отложенные данные и перекрестная проверка.
Вычислите различные статистические данные о наборе данных с повышенной достоверностью. Например, может стать доступна новая информация о размере набора данных, количестве строк и ячеек, а также о долях нулевых значений. Для получения дополнительной информации см. раздел Ограничения набора данных для обучения и профилирования.

Подробнее

Автоматическое создание признаков

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь