Escalado de características
Las características son las columnas del conjunto de datos que se utilizan para predecir un valor objetivo. Los valores de los datos de las características tendrán a menudo rangos variables. El escalado de características normaliza el rango de valores en columnas numéricas para distribuir los valores uniformemente. Esto permite relacionar valores que de otro modo serían irrelacionables.
Supongamos que intentamos predecir si un propietario va a dejar de pagar su hipoteca. En este caso, el tipo de interés y el valor de la vivienda van a tener rangos y magnitudes muy diferentes. La normalización de cada uno de estos valores con respecto a sí mismos permite representarlos matemáticamente a lo largo de un mismo plano. Esto puede aumentar tanto la precisión como la velocidad del entrenamiento del modelo.
Cómo funciona el escalado de características
Una práctica habitual para el escalado de características es calcular la media y la desviación estándar de cada columna. A continuación, para cada fila, calcule el número de desviaciones típicas con respecto a la media.
Para ilustrar este concepto y su práctica, tenemos una tabla con las columnas InitialOrderValue y DaysToConvert.
Se calcula el valor medio y la desviación típica de las columnas. Podemos utilizar estos valores para escalar los valores originales. El valor escalado por características es la diferencia entre el valor original y la media dividida por la desviación estándar.
Para el primer registro de nuestra tabla, Person_1, el valor inicial del pedido es 45,37 $. La media del valor inicial del pedido es de 32,81 $ y la desviación estándar es de 13,58 $. Esto nos da el valor a escala de la característica: (45,37 $ - 32,81 $)/13,58 $ = 0,925
Tenga en cuenta que las unidades ($) se anulan con la división. Esto significa que 0,925 ya no se mide en dólares, sino en desviaciones estándar relativas de la media. Si aplicamos esto a ambas columnas, ahora se encuentran en el mismo plano descriptivo. La siguiente tabla muestra los valores de la escala de características.
La diferencia entre los valores originales y los valores a escala de las características se visualiza en los siguientes diagramas de caja.