Формулирование задач машинного обучения
Преобразование бизнес-сценария использования в конкретную и практически применимую задачу машинного обучения может быть довольно сложным. Чтобы избежать распространенных ошибок и создать хорошую прогнозную модель, следует использовать упорядоченную структуру.
Упорядоченная структура описывает, как четко сформулировать задачу машинного обучения и как собрать хорошо структурированный набор данных, готовый к использованию. Для получения дополнительной информации о подготовке набора данных см. раздел Подготовка набора данных для обучения.
Упорядоченная структура включает в себя четыре компонента:
-
триггер события,
-
цель,
-
признаки,
-
точка прогнозирования.
Триггер события
Триггер события — это действие или событие, которое инициирует создание новых прогнозов. Каждый триггер события соответствует одной строке данных.
Цель
Цель — это значение, которое необходимо спрогнозировать. Это должно быть конкретное значение (результат), определенное в конкретном интервале времени (горизонт). Определение результата и горизонта зависит от бизнес-контекста, а также от имеющихся данных. Убедитесь, что цель релевантна для бизнес-контекста, и подумайте, какие действия вы хотите предпринять, основываясь на прогнозных значениях.
Цель представлена в отдельном столбце в наборе данных, который используется для обучения алгоритмов машинного обучения.
Признаки
Признаки — это другие столбцы в наборе данных, которые используются для прогнозирования целевого значения. Они являются гипотезами о том, какие переменные будут влиять на цель. Алгоритмы машинного обучения используют признаки, чтобы выявлять общие закономерности во время обучения и создавать прогнозы для новых рядов данных.
Столбцы признаков составляют большую часть набора данных для обучения, где каждый признак представлен отдельным столбцом. Признаки должны быть агрегированы до уровня триггера события или выше.
Признаки могут быть постоянными, что означает, что они известны на момент или до наступления события, или зависимыми от окна, что означает, что данные собираются после наступления события, но до точки прогнозирования.
Точка прогнозирования
Точка прогнозирования — это заданное время, когда прекращается сбор данных признаков и выполняется прогнозирование цели для каждой строки. Принимая решение о том, где будет находиться точка прогнозирования, необходимо найти баланс между точностью (прогнозирование должно выполняться достаточно поздно, чтобы успеть собрать качественные данные признаков) и практическими действиями (прогнозирование должно выполняться достаточно рано, чтобы успеть предпринять действия, которые могут повлиять на результат).
Время между триггером события и точкой прогнозирования называется окном сбора данных. Это время, используемое для сбора данных признаков. Время между точкой прогнозирования и горизонтом называется окном для действий, то есть это время, используемое для того, чтобы предпринять действия по результатам прогнозирования. Точка прогнозирования может находиться в любом месте между триггером события и целевым горизонтом.
Примеры: упорядоченная структура
Следующие примеры показывают, как можно использовать упорядоченную структуру для различных бизнес-сценариев. Подробный пример использования упорядоченной структуры см. в разделе Применение упорядоченной структуры на примере оттока клиентов.
Пожизненная ценность клиента
-
Триггер события: клиент размещает свой первый заказ
-
Цель: общая сумма заказов за первые три года
-
Числовой результат: сумма в долларах
-
Горизонт основывается на средней продолжительности жизненного цикла клиента
-
-
Признаки: источник лида, сумма первого заказа, использование скидки при первом заказе («Да» или «Нет»), статус доставки, регион доставки, количество товаров в первом заказе
-
Точка прогнозирования: через три месяца после первого заказа
-
Задача машинного обучения: «Спрогнозировать через три месяца после первого заказа, какой будет общая сумма заказов клиента в долларах за следующие 33 месяца»
Повторный заказ клиента
-
Триггер события: клиент размещает заказ
-
Цель: размещение еще одного заказа в течение шести месяцев
-
Двоичный результат: «Да» или «Нет»
-
Горизонт основывается на данных о том, что 90 процентов клиентов, размещающих повторный заказ, делают это в течение шести месяцев или раньше
-
-
Признаки: источник трафика, количество предыдущих заказов, используемая скидка, статус доставки, регион доставки, количество заказанных товаров, открытое сообщение эл. почты с уведомлением о доставке («Да» или «Нет»), возвращение на веб-сайт в течение 10 дней, подписка на рекламную рассылку («Да» или «Нет»)
-
Точка прогнозирования: через неделю после заказа
-
Задача машинного обучения: «Спрогнозировать через неделю после того, как клиент разместит заказ, сделает ли он еще один заказ в течение шести месяцев»
Конверсия лида в сделку
-
Триггер события: создание лида для привлечения клиентов
-
Цель: конвертация в заключенную сделку в течение 12 месяцев после создания лида
-
Двоичный результат: «Да» или «Нет»
-
Горизонт основывается на продолжительности цикла сделки за прошлые периоды
-
-
Признаки: источник лида, отрасль, размер компании, количество контактов в первые 30 дней, запланированная встреча в течение 30 дней («Да» или «Нет»), точный номер телефона («Да» или «Нет»)
-
Точка прогнозирования: 30 дней после создания лида
-
Задача машинного обучения: «Спрогнозировать через 30 дней после создания лида, будет ли этот лид сконвертирован в заключенную сделку в течение следующих 11 месяцев»
Окончание университета
-
Триггер события: студент поступил в университет
-
Цель: студент окончит университет в течение шести лет после поступления
-
Двоичный результат: «Да» или «Нет»
-
Горизонт основывается на продолжительности обучения студентов прошлых потоков
-
-
Признаки: тип средней школы, средний балл в средней школе, результаты ЕГЭ, результаты вступительных экзаменов, расстояние от средней школы до университета, получаемая стипендия, уровень образования родителей, средний балл за первый семестр, количество зачетов в первом семестре
-
Точка прогнозирования: конец первого семестра
-
Задача машинного обучения: «Спрогнозировать в конце первого семестра, окончит ли студент университет к концу шестого года обучения»
Продажи за месяц
-
Триггер события: первый день месяца
-
Цель: продажи в единицах за месяц
-
Числовой результат: количество проданных единиц
-
Горизонт основывается на календарном месяце
-
-
Признаки: тип продукта, название месяца, квартал, продажи за этот же месяц в прошлом году, продажи за этот же месяц за два года до этого, продажи за предыдущий месяц, средний процент скидки, расходы на маркетинг
-
Точка прогнозирования: первый день месяца
-
Задача машинного обучения: «Спрогнозировать в первый день месяца, сколько единиц товара будет продано к концу месяца»