Масштабирование признаков
Признаки — это столбцы в наборе данных, которые используются для прогнозирования целевого значения. Значения данных признаков часто имеют различные диапазоны. При масштабировании признаков стандартизируется диапазон значений в столбцах с числовыми значениями, что позволяет равномерно распределить значения. Благодаря этому можно связывать значения, которые в других случаях были бы несопоставимы.
Допустим, нам нужно спрогнозировать, выполнит ли собственник жилья свои обязательства по ипотечному кредиту. В данном случае процентная ставка и стоимость жилья имеют разные диапазоны и величины. Стандартизация каждого из этих значений относительно самих себя позволяет математически представить их в одной плоскости. Это может повысить как точность, так и скорость обучения модели.
Как работает масштабирование признаков
Как правило, для масштабирования признаков рассчитывается среднее значение и стандартное отклонение для каждого столбца. Затем для каждой строки рассчитывается количество стандартных отклонений от среднего значения.
Чтобы продемонстрировать эту концепцию и ее практическое применение, возьмем таблицу со столбцами InitialOrderValue и DaysToConvert.
Таблица с исходными данными. Между диапазонами в двух столбцах существует большая разница.

Для столбцов рассчитывается среднее значение и стандартное отклонение. Эти значения можно использовать для масштабирования исходных значений признаков. Масштабированное значение признака — это разница между исходным и средним значениями, поделенная на стандартное отклонение.
Среднее значение и стандартное отклонение

Для первой записи в таблице, Person_1, стоимости первого заказа (Initial_order_value) составляет 45,37 $. Среднее значение стоимости первого заказа составляет 32,81 $, а стандартное отклонение — 13,58 $. В результате получается следующее масштабированное значение признака: (45,37 $ – 32,81 $)/13,58 $ = 0,925.
Обратите внимание, что единицы ($) сокращаются при делении. Это означает, что 0,925 измеряется уже не в долларах, а в относительных стандартных отклонениях от среднего значения. После применения этого к обоим столбцам, они будут находиться в одной плоскости. В таблице ниже приведены масштабированные значения признаков.
Таблица с масштабированными данными признаков

Разница между исходными значениями и масштабированными значениями признаков наглядно представлена на блочных диаграммах.
Блочные диаграммы с исходными данными

Блочные диаграммы с масштабированными данными признаков
