Saltar al contenido principal Saltar al contenido complementario

Imputación de nulos

Demasiados valores perdidos podrían afectar negativamente a la calidad de su modelo de aprendizaje automático. La imputación es la práctica de rellenar los valores que faltan, conocidos como valores nulos. Puede haber muchas razones para que falten datos, como por ej. un error en la base de datos, que un usuario no rellene una parte de un formulario o que empiece a recopilar nuevos datos y los registros más antiguos del conjunto de datos no contengan el nuevo punto de datos.

Durante el preprocesamiento automático de los datos, los valores nulos se tratan excluyendo las columnas en las que faltan más del 50% de los valores e imputando los valores que faltan. Los valores categóricos se imputan con la moda y los valores numéricos con la media.

Es importante comprender los efectos que la imputación podría tener en los datos. La imputación conserva el poder predictivo de la fila o columna, pero también tiene el potencial de crear patrones que antes no existían o de añadir ruido a un patrón que sí existía. Esto reduce la validez de los datos.

Es posible que desee revisar sus prácticas de recopilación de datos para garantizar que los datos están completos y aplicar nuevos procesos en caso necesario. Si desea mantener la representación de un valor vacío, podría rellenar los nulos con un valor como "otro" o "desconocido".

¿Cómo funciona la imputación?

Los siguientes métodos son prácticas habituales para la imputación de nulos.

Valores numéricos

Una buena opción por defecto es imputar el valor medio. Si los valores que faltan se distribuyen normalmente, es como añadir peso al centro de un balancín: no afecta al peso de ninguno de los lados. Sin embargo, siempre hay que tener en cuenta lo que el valor intenta representar. Por ejemplo, si algunos de los valores del precio de venta son nulos en sus datos de ventas, ¿se debe a un error de la base de datos o el comprador utilizó un cupón como forma de pago? ¿Tendría más sentido un 0 u otro valor distinto de la media?

Valores categóricos

Una buena opción por defecto para los valores categóricos es añadir otra categoría y denominarla "Otros", "Desconocido" o incluso "Faltan datos". Esta categoría puede contener la varianza adicional si los valores omitidos se distribuyen aleatoriamente, o ganar en importancia de característica si existe una relación significativa entre la omisión de ese valor y el valor objetivo.

Un recurso alternativo es imputar la media en forma de moda. Al igual que con los valores numéricos, siempre es importante tener en cuenta tanto lo que el valor intenta representar realmente como por qué puede faltar. Si sabe que la mayoría de los valores perdidos son probablemente la moda, puede imputar con la moda. Si no se conoce, o hay incertidumbre, puede imputar el valor categórico con un texto de relleno que sea un nuevo valor único para el conjunto de datos.

Efectos de la imputación de valores numéricos

La imputación numérica 1 muestra un gráfico de dispersión con una línea de mejor ajuste. Tenemos un valor numérico en el eje de categorías (x) y un valor objetivo en el eje de valores (y). Parece un buen ajuste, pero solo tiene en cuenta los puntos de datos en los que se conoce x.

Imputación numérica 1: Gráfico de valores conocidos con una línea de mejor ajuste

Gráfico con línea de mejor ajuste lineal.

En la imputación numérica 2, hemos imputado el valor medio. Sin embargo, los valores que faltan no parecen ser aleatorios. Esto acaba sesgando la línea de mejor ajuste y añade ruido, reduciendo así la exactitud global del modelo.

Imputación numérica 2: Gráfico de valores conocidos y valores medios imputados. Los valores imputados no están distribuidos aleatoriamente y hay una nueva línea de mejor ajuste.

Gráfico con valores imputados que sesgan la línea de mejor ajuste.

El gráfico de Imputación numérica 3 muestra el aspecto que tendría la imputación de la media cuando los valores que faltan se distribuyen aleatoriamente. En otras palabras, cuando no se obtiene ningún conocimiento adicional al saber si el valor estaba presente o no. Cuando los valores que faltan se distribuyen aleatoriamente, no cambia la línea de mejor ajuste. Si hubiéramos imputado 0 en lugar del valor medio, habría cambiado la línea de mejor ajuste de forma similar a la imputación numérica 2.

Imputación numérica 3: Gráfico de valores conocidos y valores imputados distribuidos aleatoriamente. La línea de mejor ajuste no ha cambiado.

Gráfico con valores imputados que no sesgan la línea de mejor ajuste.

Ejemplo: Valoración de un préstamo

Un ejemplo del mundo real supondría que x fuera la renta anual e y la cantidad que alguien podría obtener en un préstamo. Cabría esperar una relación en la que cuanto más dinero gana alguien, más dinero puede pedir prestado. El patrón sería similar al de la imputación numérica 1 anterior.

Imagínese que las personas que ganan menos dinero tienen menos probabilidades de presentar sus ingresos anuales. En ese caso, faltaría el valor x por un motivo concreto. Imputar la media de esos valores sesgaría los resultados del modelo. El resultado sería algo así como la Imputación numérica 2.

Ahora, considere que algunos registros de la base de datos se eliminaron aleatoriamente. Los registros contenían datos sobre cuánto dinero ganan algunas personas, pero no el registro de la persona. Así que el valor x es aleatoriamente nulo. Este efecto se muestra en Imputación numérica 3 y es un caso en el que podemos imputar con seguridad el valor que falta.

Otro aspecto a tener en cuenta es: ¿qué pasaría si se imputara 0 en lugar de la media? En el ejemplo de la valoración del préstamo, probablemente no sea una representación exacta decir que alguien gana 0 dólares anuales. Sesgaría el modelo de forma similar a la imputación numérica 2.

Efectos de imputar valores categóricos

En el caso numérico anterior, utilizamos la media para imputar los valores que faltan. Un método sencillo para los valores categóricos es tomar la moda, que es el valor que aparece con más frecuencia. Algunos de los retos que plantea la imputación de la moda son los mismos que la imputación de la media de un valor numérico.

En el gráfico siguiente, los valores que faltan en Missing_1 siguen un patrón en relación con el objetivo, mientras que Missing_2 se distribuye aleatoriamente. Podemos verlo porque Missing_2 coincide con el valor objetivo medio global. Missing_1 es similar a la imputación numérica 2 y Missing_2 es similar a la imputación numérica 3.

Imputación categórica: Las columnas Missing_1 y Missing_2 son ejemplos de valores que faltan, con y sin patrón.

Gráfico que muestra la distribución de las clases A, B y C junto con la media global y la imputación categórica de los valores que faltan.

La diferencia con el ejemplo numérico es que en este caso tanto Missing_1 como Missing_2 sesgan el reconocimiento del patrón. Únicamente se está sesgando para un subconjunto de los datos, la categoría B, que sería el valor imputado si se imputara con la moda porque es la categoría más grande.

La distorsión de la relación entre un valor único y el valor objetivo no es el único riesgo de la imputación, pero es uno de los más comunes y fáciles de evaluar. Otros riesgos tienden simplemente a añadir ruido y reducen la exactitud. Afortunadamente, el riesgo de sesgo puede mitigarse en gran medida eliminando las dimensiones que son relativamente dispersas. A menudo se debate qué niveles de dispersión deben permitirse exactamente en una columna o una fila, pero no se discute tanto que la imputación de valores puede distorsionar los datos hasta el punto de que dejen de ser representativos de lo que intentan describir.

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.