Масштабирование признаков
Признаки — это столбцы в наборе данных, которые используются для прогнозирования целевого значения. Значения данных признаков часто имеют различные диапазоны. При масштабировании признаков стандартизируется диапазон значений в столбцах с числовыми значениями, что позволяет равномерно распределить значения. Благодаря этому можно связывать значения, которые в других случаях были бы несопоставимы.
Допустим, нам нужно спрогнозировать, выполнит ли собственник жилья свои обязательства по ипотечному кредиту. В данном случае процентная ставка и стоимость жилья имеют разные диапазоны и величины. Стандартизация каждого из этих значений относительно самих себя позволяет математически представить их в одной плоскости. Это может повысить как точность, так и скорость обучения модели.
Как работает масштабирование признаков
Как правило, для масштабирования признаков рассчитывается среднее значение и стандартное отклонение для каждого столбца. Затем для каждой строки рассчитывается количество стандартных отклонений от среднего значения.
Чтобы продемонстрировать эту концепцию и ее практическое применение, возьмем таблицу со столбцами InitialOrderValue и DaysToConvert.
Таблица с исходными данными. Между диапазонами в двух столбцах существует большая разница.
![Нажмите для просмотра в полном размере Таблица с образцами данных.](../../Resources/Images/AutomatedMachineLearning/feature-scaling-table-1.png)
Для столбцов рассчитывается среднее значение и стандартное отклонение. Эти значения можно использовать для масштабирования исходных значений признаков. Масштабированное значение признака — это разница между исходным и средним значениями, поделенная на стандартное отклонение.
Среднее значение и стандартное отклонение
![Нажмите для просмотра в полном размере Таблица со средним значением и стандартным отклонением для столбцов Initial_order_value и Days_to_convert.](../../Resources/Images/AutomatedMachineLearning/feature-scaling-table-2.png)
Для первой записи в таблице, Person_1, стоимости первого заказа (Initial_order_value) составляет 45,37 $. Среднее значение стоимости первого заказа составляет 32,81 $, а стандартное отклонение — 13,58 $. В результате получается следующее масштабированное значение признака: (45,37 $ – 32,81 $)/13,58 $ = 0,925.
Обратите внимание, что единицы ($) сокращаются при делении. Это означает, что 0,925 измеряется уже не в долларах, а в относительных стандартных отклонениях от среднего значения. После применения этого к обоим столбцам, они будут находиться в одной плоскости. В таблице ниже приведены масштабированные значения признаков.
Таблица с масштабированными данными признаков
![Нажмите для просмотра в полном размере Таблица с образцами данных.](../../Resources/Images/AutomatedMachineLearning/feature-scaling-table-3.png)
Разница между исходными значениями и масштабированными значениями признаков наглядно представлена на блочных диаграммах.
Блочные диаграммы с исходными данными
![Нажмите для просмотра в полном размере Блочные диаграммы.](../../Resources/Images/AutomatedMachineLearning/feature-scaling-figure-1.png)
Блочные диаграммы с масштабированными данными признаков
![Нажмите для просмотра в полном размере Блочные диаграммы.](../../Resources/Images/AutomatedMachineLearning/feature-scaling-figure-2.png)