Общие сведения о важности признаков

Важность признаков определяет, насколько сильно каждый признак влияет на цель. С ее помощью можно выявить проблемы с набором данных и улучшить модель. Важность признаков включает в себя два различных показателя: важность перестановки и важность SHAP.

Упрощенная интерпретация важности признаков заключается в том, что изменение наиболее важного признака изменит целевую переменную в большей степени, чем изменение любого другого признака. Изменение двух наиболее важных признаков, вероятно, окажет большее влияние, чем изменение одного признака, но принцип остается тем же: признаки с очень низкой важностью, как правило, не обладают большой прогнозной силой. Управление такими признаками или их изменение, возможно, не приведет к каким-либо изменениям.

Использование важности признаков

Важность признаков может быть полезна при выявлении проблем с данными, используемыми для обучения модели. Допустим, при попытке спрогнозировать, будет ли закрыта сделка, мы забыли исключить столбец, содержащий дату закрытия сделки. Этот столбец, вероятно, будет обладать наибольшей прогнозной силой и, следовательно, содержит наиболее важный признак. Включение этого признака приведет к тому, что модель будет работать лучше, чем в реальных условиях, поскольку при попытке спрогнозировать двоичный результат — закроется сделка или нет — дата закрытия сделки будет неизвестна.

Важность признаков также может помочь найти способы итеративного улучшения модели. Значения наиболее важных признаков иногда могут быть хорошей основой для сегментации. В качестве примера можно привести флажок автоплатежа, который является очень важным признаком. Этот признак можно использовать для сегментации данных и обучения одной модели на основе данных клиентов, для которых настроен автоплатеж, и другой модели на основе данных клиентов без флажка автоплатежа. Эти две модели, вероятно, будут работать лучше, чем первая модель.

В остальных случаях можно использовать или конструировать признаки, которые лучше отражают то, что описывает более важный признак, исключая при этом избыточные признаки. Например, очень важным признаком может быть продуктовая линейка, которую предлагает предприятие. Разбиение продуктовой линейки на несколько более описательных признаков продуктов может дать более значимый результат.

Сравнение важности перестановки и важности SHAP

Важность перестановки и важность SHAP являются альтернативными способами определения важности признаков. Основное различие состоит в том, что важность перестановки основывается на снижении производительности модели, в то время как важность SHAP — на величине атрибутов признаков.

Как использовать значения

Важность перестановки используется в следующих целях:

чтобы понять, какие признаки следует оставить, а какие — исключить;
для выявления утечки данных;
чтобы понять, какие признаки являются наиболее важными для обеспечения точности модели;
в качестве ориентира при конструировании дополнительных признаков.

Важность SHAP используется в следующих целях:

чтобы понять, какие признаки в наибольшей степени влияют на прогнозируемый результат;
чтобы глубоко вникнуть в признак и понять, как различные значения этого признака влияют на прогноз;
чтобы понять, что оказывает наибольшее влияние на отдельные строки или подмножества данных.

Уровень данных

Важность перестановки рассчитывается для всего набора данных. В частности, определяется, насколько изменится точность всего набора данных при исключении какого-либо признака. С помощью важности перестановки нельзя понять влияние на отдельные строки.

Важность SHAP рассчитывается на уровне строк и может использоваться для того, чтобы понять, что важно для конкретной строки. Значения показывают, как признак влияет на прогноз одной строки по сравнению со средним результатом в наборе данных.

Влияние значений признаков

Важность перестановки не может использоваться для того, чтобы понять, какие значения признаков являются наиболее важными.

Значения важности SHAP можно использовать для того, чтобы понять, как значения конкретного признака влияют на результат.

Направление

Важность перестановки не учитывает направление.

Значения важности SHAP показывают направление. Они могут быть положительными или отрицательными в зависимости от того, в каком направлении они повлияли на прогнозируемый результат.

Величина

Величина важности перестановки определяет важность признака для общего прогнозирования с помощью модели.

Величина важности SHAP определяет, насколько сильно конкретный признак влияет на прогноз отдельной строки, который отличается от усредненного прогноза для набора данных.

СОПУТСТВУЮЩИЕ УЧЕБНЫЕ МАТЕРИАЛЫ:

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!

Оставьте свой отзыв здесь