Перейти к основному содержимому Перейти к дополнительному содержимому

Задачи классификации

Задачи, в которых целевой столбец является категориальным, называются задачами классификации. Задачи двоичной классификации имеют две возможные категории, а именно «Да» и «Нет», тогда как задачи многоклассовой классификации имеют более двух возможных категорий.

Приведенные ниже примеры объясняют два типа задач классификации. В них также рассматриваются некоторые аспекты, касающиеся формулирования задач машинного обучения.

Пример двоичной классификации: отток клиентов

В данном примере компания предлагает модель, основанную на подписке. Были собраны данные обо всех бывших и нынешних клиентах. Клиенты были помечены как отменившие (отток) и не отменившие подписку.

В приведенной ниже таблице показаны собранные данные. Каждая строка содержит уникального клиента, а столбцы представляют различные признаки, описывающие этого клиента. Последний столбец — наша цель. Это двоичный столбец, который указывает, отменил ли клиент свою подписку («Да» или «Нет»).

Образцы собранных данных

Таблица с образцами данных для обучения.

Этот набор данных можно использовать для обучения алгоритма машинного обучения, позволяющего прогнозировать отток клиентов. Однако при таком подходе возникают некоторые проблемы.

  • В наборе данных сравниваются новые и старые клиенты и отсутствует информация о том, отменят ли в будущем свою подписку клиенты, еще не отменившие ее.

  • Новые клиенты могут иметь характеристики, которые указывают на вероятность их оттока (возможно, известно, что мужчины в возрасте двадцати лет, совершающие мало покупок в первый месяц, как правило, вскоре после этого отменяют свою подписку). Однако, поскольку эти клиенты являются новыми и еще не отменили свою подписку, алгоритм машинного обучения обучается, чтобы связывать эти характеристики с постоянными клиентами, которые не собираются отменять подписку.

Избежать этих проблем можно, если точно определить отток и подготовить набор данных для решения этой задачи. Понимание того, как точно и правильно формулировать бизнес-задачи, чтобы их можно было решать с помощью машинного обучения, приходит с опытом. Полезно ознакомиться с хорошими и плохими примерами того, как это делается, еще на начальном этапе изучения машинного обучения для решения бизнес-задач. Если нет уверенности в том, как правильно сформулировать бизнес-задачи для машинного обучения, следует рассмотреть включение интервала времени в определение бизнес-метрик. Эта стратегия часто помогает.

Включение фактора времени

Давайте рассмотрим включение фактора времени в формулировку задачи. Можно выяснить, какие клиенты откажутся от услуг в течение первых шести месяцев. Например, по поведению клиентов в течение первого месяца обслуживания можно спрогнозировать, уйдут ли они в течение первых шести месяцев. Таким образом, найден точный способ определения оттока клиентов, включающий интервал времени. Набор данных можно представить следующим образом:

Набор данных, включающий фактор времени

Таблица с образцами данных для обучения.

В каждой строке указан клиент, но теперь таблица содержит только тех клиентов, которые пользовались подпиской не менее шести месяцев. По количеству покупок и суммарным расходам в течение первого месяца для каждого из этих клиентов можно спрогнозировать, откажутся ли они от подписки после шести месяцев. Причем для решения этой задачи не имеет значения, отказались ли они от подписки после первых шести месяцев. Целевой столбец показывает только, отменили ли клиенты свою подписку в течение первых шести месяцев.

В результате получился набор данных для обучения, в котором строки можно сравнивать друг с другом. После обучения модели с использованием этого набора данных можно взять любого нового клиента, который оформил подписку как минимум на один месяц, и на основе его поведения в течение первого месяца и нашей обученной модели спрогнозировать, отменит ли он свою подписку в течение первых шести месяцев.

Пример многоклассовой классификации: лепестки ириса

В данном примере приведены данные большой выборки цветов ириса. Для каждого цветка указаны длина и ширина его лепестков и чашелистиков, а также вид ириса, к которому он принадлежит. Задача состоит в том, чтобы в будущем, встретив новый цветок ириса, можно было определить его вид по длине и ширине его лепестков и чашелистиков.

Образцы собранных данных

Таблица с образцами данных для обучения.

Собранные данные можно передать алгоритму машинного обучения, который подберет функцию с учетом имеющихся данных. Эта функция поможет спрогнозировать вид ириса, основываясь на значениях остальных четырех переменных. Результатом является категория, полученная из дискретного набора категорий.

Примечание. В этом примере предполагается, что данные, на основе которых создаются прогнозы, в будущем будут статистически соответствовать данным, которые использовались для обучения алгоритма. Если в наборе данных для обучения присутствуют только три различных вида ирисов, то с помощью обученного алгоритма можно спрогнозировать цветки только этих видов. Нельзя ожидать, что алгоритм машинного обучения будет создавать прогнозы на основе моделей, распознаванию которых он не был обучен с помощью набора данных для обучения.

СОПУТСТВУЮЩИЕ УЧЕБНЫЕ МАТЕРИАЛЫ:

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!