Перейти к основному содержимому Перейти к дополнительному содержимому

Создание новых столбцов признаков

Создание признаков — это процесс создания новых столбцов признаков на основе существующих. С помощью создания признаков можно получить дополнительные возможности прогнозирования на основе исходных данных, собранных для решения бизнес-задачи.

Например, адрес клиента исключается из данных для обучения из-за высокой кардинальности. Вместо адреса можно использовать столбец расстояния. Если известны адрес клиента и местоположение различных магазинов, можно рассчитать расстояния до них. Новые столбцы будут иметь числовое значение, которое можно использовать для выявления измеримых закономерностей в данных.

Можно создавать признаки в наборе данных, который готовится для использования в AutoML. Кроме того, AutoML предполагает автоматическое создание новых признаков на основе существующих.

Новые столбцы расстояний до различных магазинов

Таблица с образцами данных.

Проанализируйте признаки в наборе данных, чтобы определить возможные проблемы и при необходимости внести корректировки. Для создания хороших признаков требуются определенные навыки и бизнес-опыт. Нужно, чтобы признаки были выражены таким образом, чтобы они были непосредственно связаны с целевым столбцом.

Ниже приведены аспекты, которые необходимо учитывать.

  • Нужно ли включить в признак фактор времени?

  • Важна ли скорость изменения?

  • Следует ли нормализовать признак, чтобы учитывались различия между подмножествами данных?

  • Какое значение имеют значения NULL?

Автоматически созданные признаки

Функция автоматического создания признаков позволяет автоматически создавать новые признаки на основе существующих.

AutoML автоматически создает признаки из столбцов, которые содержат данные даты и времени. Эти новые признаки выделяют каждый компонент значений столбца в отдельные признаки.

В дополнение к этому можно применять особую обработку к столбцам, содержащим произвольный текст. Первоначальные признаки произвольного текста преобразуются в новые признаки с целью улучшения обучения модели.

Автоматически созданные признаки повышают прогностическую и аналитическую ценность моделей в процессе обучения. Для получения дополнительной информации см. раздел Автоматическое создание признаков.

Примеры: создание признаков

Используйте следующие примеры для мозгового штурма о том, как создать признаки, которые помогут расширить возможности прогнозирования на основе ваших данных.

Будет ли закрыта сделка?

Целевой столбец показывает, закрыта ли сделка («Да» или «Нет»).

  • Исходный признак: количество встреч

  • Альтернативные признаки: количество встреч в месяц или количество встреч на определенном этапе

При преобразовании показателя в частоту встреч лучше учитываются изменения. Показатель частоты встреч на определенном этапе сделки лучше описывает динамику развития сделки и учитывает цикл.

Прогнозирование суммы будущей сделки

Целевой столбец показывает сумму будущей сделки.

  • Исходный признак: сумма последней сделки

  • Альтернативные признаки: средняя сумма сделки или процентное изменение суммы сделки

Средняя сумма сделки дает более широкое представление о том, какой будет сумма будущей сделки. Изменение модели сделки обеспечивает нормализованное значение.

Уйдет ли клиент?

Целевой столбец показывает, уйдет ли клиент («Да» или «Нет»).

  • Исходный признак: настроение клиента

  • Альтернативные признаки: изменение настроения клиента или количество дней с текущим настроением

Изменение настроения клиента с большей вероятностью приведет к каким-либо действиям. Количество дней указывает на продолжительность текущего настроения.

Уволится ли сотрудник по собственному желанию?

Целевой столбец показывает, уволится ли сотрудник («Да» или «Нет»).

  • Исходный признак: зарплата

  • Альтернативные признаки: зарплата по сравнению с коллегами или зарплата по сравнению со средней зарплатой по отрасли

Сравнение зарплаты с зарплатами коллег лучше всего отражает переживания или настроение сотрудника. Сравнение со средней зарплатой по отрасли лучше всего позволяет определить альтернативную стоимость сотрудника.

Будет ли лид сконвертирован в сделку?

Целевой столбец показывает, сконвертирован ли лид в сделку («Да» или «Нет»).

  • Исходный признак: как нас нашли?

  • Альтернативные признаки: ответ («Да» или «Нет»)

Здесь важно действие, а не ответ. Обратите внимание, что в данном случае значения NULL означают бездействие.

Даты

При использовании функции для автоматического создания признаков в AutoML компоненты дат и меток времени автоматически помещаются в отдельные столбцы.

Даты также можно конструировать различными способами, что позволяет создавать несколько признаков в одном наборе данных.

  • Объедините даты в сезоны, кварталы или полугодия.

  • Рассчитайте разницу между датами, например, количество дней с момента последней покупки.

СОПУТСТВУЮЩИЕ УЧЕБНЫЕ МАТЕРИАЛЫ:

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!