Масштабирование признаков

Признаки — это столбцы в наборе данных, которые используются для прогнозирования целевого значения. Значения данных признаков часто имеют различные диапазоны. При масштабировании признаков стандартизируется диапазон значений в столбцах с числовыми значениями, что позволяет равномерно распределить значения. Благодаря этому можно связывать значения, которые в других случаях были бы несопоставимы.

Допустим, нам нужно спрогнозировать, выполнит ли собственник жилья свои обязательства по ипотечному кредиту. В данном случае процентная ставка и стоимость жилья имеют разные диапазоны и величины. Стандартизация каждого из этих значений относительно самих себя позволяет математически представить их в одной плоскости. Это может повысить как точность, так и скорость обучения модели.

Как работает масштабирование признаков

Как правило, для масштабирования признаков рассчитывается среднее значение и стандартное отклонение для каждого столбца. Затем для каждой строки рассчитывается количество стандартных отклонений от среднего значения.

Чтобы продемонстрировать эту концепцию и ее практическое применение, возьмем таблицу со столбцами InitialOrderValue и DaysToConvert.

Таблица с образцами данных. — Таблица с исходными данными. Между диапазонами в двух столбцах существует большая разница.

Для столбцов рассчитывается среднее значение и стандартное отклонение. Эти значения можно использовать для масштабирования исходных значений признаков. Масштабированное значение признака — это разница между исходным и средним значениями, поделенная на стандартное отклонение.

Таблица со средним значением и стандартным отклонением для столбцов Initial_order_value и Days_to_convert. — Среднее значение и стандартное отклонение

Для первой записи в таблице, Person_1, стоимости первого заказа (Initial_order_value) составляет 45,37 $. Среднее значение стоимости первого заказа составляет 32,81 $, а стандартное отклонение — 13,58 $. В результате получается следующее масштабированное значение признака: (45,37 $ – 32,81 $)/13,58 $ = 0,925.

Обратите внимание, что единицы ($) сокращаются при делении. Это означает, что 0,925 измеряется уже не в долларах, а в относительных стандартных отклонениях от среднего значения. После применения этого к обоим столбцам, они будут находиться в одной плоскости. В таблице ниже приведены масштабированные значения признаков.

Разница между исходными значениями и масштабированными значениями признаков наглядно представлена на блочных диаграммах.

Блочные диаграммы. — Блочные диаграммы с исходными данными

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь