Saltar al contenido principal Saltar al contenido complementario

Escalado de características

Las características son las columnas del conjunto de datos que se utilizan para predecir un valor objetivo. Los valores de los datos de las características tendrán a menudo rangos variables. El escalado de características normaliza el rango de valores en columnas numéricas para distribuir los valores uniformemente. Esto permite relacionar valores que de otro modo serían irrelacionables.

Supongamos que intentamos predecir si un propietario va a dejar de pagar su hipoteca. En este caso, el tipo de interés y el valor de la vivienda van a tener rangos y magnitudes muy diferentes. La normalización de cada uno de estos valores con respecto a sí mismos permite representarlos matemáticamente a lo largo de un mismo plano. Esto puede aumentar tanto la precisión como la velocidad del entrenamiento del modelo.

Cómo funciona el escalado de características

Una práctica habitual para el escalado de características es calcular la media y la desviación estándar de cada columna. A continuación, para cada fila, calcule el número de desviaciones típicas con respecto a la media.

Para ilustrar este concepto y su práctica, tenemos una tabla con las columnas InitialOrderValue y DaysToConvert.

Tabla con los datos originales. Hay una gran diferencia entre los rangos de las dos columnas.

Tabla con datos de muestra.

Se calcula el valor medio y la desviación típica de las columnas. Podemos utilizar estos valores para escalar los valores originales. El valor escalado por características es la diferencia entre el valor original y la media dividida por la desviación estándar.

Valor medio y desviación estándar

Tabla con la media y la desviación estándar de las columnas Initial_order_value y Days_to_convert.

Para el primer registro de nuestra tabla, Person_1, el valor inicial del pedido es 45,37 $. La media del valor inicial del pedido es de 32,81 $ y la desviación estándar es de 13,58 $. Esto nos da el valor a escala de la característica: (45,37 $ - 32,81 $)/13,58 $ = 0,925

Tenga en cuenta que las unidades ($) se anulan con la división. Esto significa que 0,925 ya no se mide en dólares, sino en desviaciones estándar relativas de la media. Si aplicamos esto a ambas columnas, ahora se encuentran en el mismo plano descriptivo. La siguiente tabla muestra los valores de la escala de características.

Tabla con datos a escala de las características

Tabla con datos de muestra.

La diferencia entre los valores originales y los valores a escala de las características se visualiza en los siguientes diagramas de caja.

Diagramas de caja de datos originales

Diagramas de caja.

Diagramas de caja de datos a escala de características

Diagramas de caja.

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.