Создание новых столбцов признаков
Создание признаков — это процесс создания новых столбцов признаков на основе существующих. С помощью создания признаков можно получить дополнительные возможности прогнозирования на основе исходных данных, собранных для решения бизнес-задачи.
Например, адрес клиента исключается из данных для обучения из-за высокой кардинальности. Вместо адреса можно использовать столбец расстояния. Если известны адрес клиента и местоположение различных магазинов, можно рассчитать расстояния до них. Новые столбцы будут иметь числовое значение, которое можно использовать для выявления измеримых закономерностей в данных.
Можно создавать признаки в наборе данных, который готовится для использования в Qlik Predict. Кроме того, Qlik Predict предполагает автоматическое создание новых признаков на основе существующих.
Новые столбцы расстояний до различных магазинов

Проанализируйте признаки в наборе данных, чтобы определить возможные проблемы и при необходимости внести корректировки. Для создания хороших признаков требуются определенные навыки и бизнес-опыт. Нужно, чтобы признаки были выражены таким образом, чтобы они были непосредственно связаны с целевым столбцом.
Ниже приведены аспекты, которые необходимо учитывать.
-
Нужно ли включить в признак фактор времени?
-
Важна ли скорость изменения?
-
Следует ли нормализовать признак, чтобы учитывались различия между подмножествами данных?
-
Какое значение имеют значения NULL?
Автоматически созданные признаки
Функция автоматического создания признаков позволяет автоматически создавать новые признаки на основе существующих.
Qlik Predict автоматически создает признаки из столбцов, которые содержат данные даты и времени. Эти новые признаки выделяют каждый компонент значений столбца в отдельные признаки.
В дополнение к этому можно применять особую обработку к столбцам, содержащим произвольный текст. Первоначальные признаки произвольного текста преобразуются в новые признаки с целью улучшения обучения модели.
Автоматически созданные признаки повышают прогностическую и аналитическую ценность моделей в процессе обучения. Для получения дополнительной информации см. раздел Автоматическое создание признаков.
Примеры: создание признаков
Используйте следующие примеры для мозгового штурма о том, как создать признаки, которые помогут расширить возможности прогнозирования на основе ваших данных.
Будет ли закрыта сделка?
Целевой столбец показывает, закрыта ли сделка («Да» или «Нет»).
-
Исходный признак: количество встреч
-
Альтернативные признаки: количество встреч в месяц или количество встреч на определенном этапе
При преобразовании показателя в частоту встреч лучше учитываются изменения. Показатель частоты встреч на определенном этапе сделки лучше описывает динамику развития сделки и учитывает цикл.
Прогнозирование суммы будущей сделки
Целевой столбец показывает сумму будущей сделки.
-
Исходный признак: сумма последнего заказа
-
Альтернативные признаки: средняя сумма сделки или процентное изменение суммы сделки
Средняя сумма сделки дает более широкое представление о том, какой будет сумма будущей сделки. Изменение модели сделки обеспечивает нормализованное значение.
Уйдет ли клиент?
Целевой столбец показывает, уйдет ли клиент («Да» или «Нет»).
-
Исходный признак: настроение клиента
-
Альтернативные признаки: изменение настроения клиента или количество дней с текущим настроением
Изменение настроения клиента с большей вероятностью приведет к каким-либо действиям. Количество дней указывает на продолжительность текущего настроения.
Уволится ли сотрудник по собственному желанию?
Целевой столбец показывает, уволится ли сотрудник («Да» или «Нет»).
-
Исходный признак: зарплата
-
Альтернативные признаки: зарплата по сравнению с коллегами или зарплата по сравнению со средней зарплатой по отрасли
Сравнение зарплаты с зарплатами коллег лучше всего отражает переживания или настроение сотрудника. Сравнение со средней зарплатой по отрасли лучше всего позволяет определить альтернативную стоимость сотрудника.
Будет ли лид сконвертирован в сделку?
Целевой столбец показывает, сконвертирован ли лид в сделку («Да» или «Нет»).
-
Исходный признак: как нас нашли?
-
Альтернативные признаки: ответ («Да» или «Нет»)
Здесь важно действие, а не ответ. Обратите внимание, что в данном случае значения NULL означают бездействие.
Даты
При использовании функции для автоматического создания признаков в Qlik Predict компоненты дат и меток времени автоматически помещаются в отдельные столбцы.
Даты также можно конструировать различными способами, что позволяет создавать несколько признаков в одном наборе данных.
-
Объедините даты в сезоны, кварталы или полугодия.
-
Рассчитайте разницу между датами, например, количество дней с момента последней покупки.