Создание новых столбцов признаков
Создание признаков — это процесс создания новых столбцов признаков на основе существующих. С помощью создания признаков можно получить дополнительные возможности прогнозирования на основе исходных данных, собранных для решения бизнес-задачи.
Например, адрес клиента исключается из данных для обучения из-за высокой кардинальности. Вместо адреса можно использовать столбец расстояния. Если известны адрес клиента и местоположение различных магазинов, можно рассчитать расстояния до них. Новые столбцы будут иметь числовое значение, которое можно использовать для выявления измеримых закономерностей в данных.
Можно создавать признаки в наборе данных, который готовится для использования в AutoML. Кроме того, AutoML предполагает автоматическое создание новых признаков на основе существующих.
Проанализируйте признаки в наборе данных, чтобы определить возможные проблемы и при необходимости внести корректировки. Для создания хороших признаков требуются определенные навыки и бизнес-опыт. Нужно, чтобы признаки были выражены таким образом, чтобы они были непосредственно связаны с целевым столбцом.
Ниже приведены аспекты, которые необходимо учитывать.
-
Нужно ли включить в признак фактор времени?
-
Важна ли скорость изменения?
-
Следует ли нормализовать признак, чтобы учитывались различия между подмножествами данных?
-
Какое значение имеют значения NULL?
Автоматически созданные признаки
Функция автоматического создания признаков позволяет автоматически создавать новые признаки на основе существующих.
AutoML автоматически создает признаки из столбцов, которые содержат данные даты и времени. Эти новые признаки выделяют каждый компонент значений столбца в отдельные признаки.
В дополнение к этому можно применять особую обработку к столбцам, содержащим произвольный текст. Первоначальные признаки произвольного текста преобразуются в новые признаки с целью улучшения обучения модели.
Автоматически созданные признаки повышают прогностическую и аналитическую ценность моделей в процессе обучения. Для получения дополнительной информации см. раздел Автоматическое создание признаков.
Примеры: создание признаков
Используйте следующие примеры для мозгового штурма о том, как создать признаки, которые помогут расширить возможности прогнозирования на основе ваших данных.
Будет ли закрыта сделка?
Целевой столбец показывает, закрыта ли сделка («Да» или «Нет»).
-
Исходный признак: количество встреч
-
Альтернативные признаки: количество встреч в месяц или количество встреч на определенном этапе
При преобразовании показателя в частоту встреч лучше учитываются изменения. Показатель частоты встреч на определенном этапе сделки лучше описывает динамику развития сделки и учитывает цикл.
Прогнозирование суммы будущей сделки
Целевой столбец показывает сумму будущей сделки.
-
Исходный признак: сумма последнего заказа
-
Альтернативные признаки: средняя сумма сделки или процентное изменение суммы сделки
Средняя сумма сделки дает более широкое представление о том, какой будет сумма будущей сделки. Изменение модели сделки обеспечивает нормализованное значение.
Уйдет ли клиент?
Целевой столбец показывает, уйдет ли клиент («Да» или «Нет»).
-
Исходный признак: настроение клиента
-
Альтернативные признаки: изменение настроения клиента или количество дней с текущим настроением
Изменение настроения клиента с большей вероятностью приведет к каким-либо действиям. Количество дней указывает на продолжительность текущего настроения.
Уволится ли сотрудник по собственному желанию?
Целевой столбец показывает, уволится ли сотрудник («Да» или «Нет»).
-
Исходный признак: зарплата
-
Альтернативные признаки: зарплата по сравнению с коллегами или зарплата по сравнению со средней зарплатой по отрасли
Сравнение зарплаты с зарплатами коллег лучше всего отражает переживания или настроение сотрудника. Сравнение со средней зарплатой по отрасли лучше всего позволяет определить альтернативную стоимость сотрудника.
Будет ли лид сконвертирован в сделку?
Целевой столбец показывает, сконвертирован ли лид в сделку («Да» или «Нет»).
-
Исходный признак: как нас нашли?
-
Альтернативные признаки: ответ («Да» или «Нет»)
Здесь важно действие, а не ответ. Обратите внимание, что в данном случае значения NULL означают бездействие.
Даты
При использовании функции для автоматического создания признаков в AutoML компоненты дат и меток времени автоматически помещаются в отдельные столбцы.
Даты также можно конструировать различными способами, что позволяет создавать несколько признаков в одном наборе данных.
-
Объедините даты в сезоны, кварталы или полугодия.
-
Рассчитайте разницу между датами, например, количество дней с момента последней покупки.