Detección de sesgos en modelos de aprendizaje automático
Puede identificar sesgos en los modelos de aprendizaje automático que entrena en experimentos de ML. Aborde los sesgos detectados eliminando las características sesgadas, corrigiendo la recopilación de datos inadecuada o cambiando la estructura de su conjunto de datos de entrenamiento.
Comprender el sesgo
En el aprendizaje automático (Machine Learning), el sesgo es un fenómeno no deseado en el que los modelos favorecen, o podrían favorecer, a determinados grupos de características sobre otros. El sesgo afecta negativamente a la imparcialidad y tiene implicaciones éticas para las predicciones y las decisiones que derivan de ellas. El sesgo puede introducirse en los datos de entrenamiento, en los resultados predichos por los modelos entrenados o en ambos.
Ejemplos de sesgo —y sus consecuencias para la toma de decisiones— incluyen:
-
Entrenar modelos con datos que representan de forma desproporcionada ciertos niveles de ingresos o estados de salud, lo que resulta en decisiones injustas para las reclamaciones de seguros.
-
Entrenar modelos con datos sesgados con respecto a la raza y el género de los candidatos, lo que afecta a las decisiones de contratación.
-
Entrenar modelos que asocian códigos postales con la solvencia crediticia.
Sesgo de datos
El sesgo de datos ocurre cuando los datos utilizados para entrenar un modelo están sesgados de una manera que favorece a determinados grupos sobre otros. El sesgo de datos es ocasionado por una representación desigual de los grupos en los datos de entrenamiento.
Por ejemplo, un conjunto de datos para predecir resultados de contratación podría contener datos que representen a un género como más exitoso que otros.
El sesgo de datos puede introducirse en los datos de entrenamiento de varias maneras, incluyendo:
-
Recopilación de datos incorrecta, en la que ciertos grupos están infrarrepresentados o sobrerrepresentados.
-
Datos que reflejan patrones históricos con precisión, pero exponen el sesgo subyacente en estas tendencias y prácticas.
Los datos en la siguiente visualización indican un sesgo de datos.
Un ejemplo de sesgo de datos, visualizado mediante un gráfico de barras. En los datos de origen, ciertos estados civiles están sobrerrepresentados en comparación con otros en relación a los niveles de ingresos.

Sesgo del modelo
El sesgo del modelo, o sesgo algorítmico, ocurre cuando las predicciones realizadas por un modelo de aprendizaje automático favorecen a algunos grupos sobre otros. Con el sesgo del modelo, los modelos establecen asociaciones entre ciertos grupos y resultados, impactando de manera negativa en otros grupos. El sesgo del modelo pueden ocasionarlo unos datos recopilados incorrectamente o sesgados ya de por sí, así como comportamientos específicos del algoritmo de entrenamiento que se esté utilizando.
Por ejemplo, un modelo podría predecir tasas de contratación desproporcionadamente negativas para ciertos grupos de edad debido a asociaciones injustas realizadas por el modelo.
Visualización desde la pestaña Analizar en un experimento de ML, que destaca el sesgo del modelo. La visualización muestra que un modelo realiza predicciones de ingresos más altas para ciertos estados civiles que para otros.

Métricas de sesgo de datos
En Qlik Predict, el sesgo de los datos se mide analizando:
-
Tasa de representación: compara la distribución de los datos pertenecientes a cada grupo de la característica, en comparación con todos los datos de la característica. La métrica calculada es la relación de paridad de la tasa de representación.
-
Relación de paridad de distribución condicional: compara el equilibrio entre los datos de cada grupo de la característica, con respecto a los valores de la columna de destino. La métrica calculada es la relación de paridad de la distribución condicional.
Para obtener más información sobre los valores aceptables para estas métricas, consulte Valores aceptables para las métricas de sesgo.
Métricas de sesgo del modelo
En Qlik Predict, las métricas de sesgo del modelo se entienden mejor en el contexto del tipo de modelo para el experimento. En términos generales, existen las siguientes categorías de métricas de sesgo:
-
Métricas de modelos de clasificación
-
Métricas de modelos de regresión y series temporales
Para obtener más información sobre los valores aceptables para estas métricas, consulte Valores aceptables para las métricas de sesgo.
Modelos de clasificación
En los modelos de clasificación binaria y multiclase, el sesgo se mide analizando los valores objetivo predichos (resultados). En particular, se comparan las diferencias en las tasas de resultados positivos y negativos para los grupos ("positivo" y "negativo" aquí se refieren a resultados que son favorables frente a desfavorables; por ejemplo, un valor de sí o no para una columna objetivo Contratado). Estos modelos tienen las siguientes métricas de sesgo:
-
Impacto desigual
-
Diferencia de paridad estadística
-
Diferencia de igualdad de oportunidades
Impacto desigual
La relación de impacto desigual (DI) evalúa si los grupos en una característica sensible están siendo favorecidos o perjudicados en los resultados predichos del modelo. Se mide calculando con qué frecuencia se selecciona cada grupo como valor predicho, comparándolo con la tasa de selección del grupo más favorecido en la característica.
Diferencia de paridad estadística
Similar al impacto desigual, la diferencia de paridad estadística (SPD) evalúa las predicciones del modelo para determinar si favorecen o perjudican a algún grupo en particular. La métrica se calcula comparando las tasas de resultados positivos entre el grupo más grande y el más pequeño.
Diferencia de igualdad de oportunidades
La diferencia en la igualdad de oportunidades (EOD) es similar a las otras dos métricas de sesgo del modelo de clasificación. La EOD compara las tasas de verdaderos positivos más altas y más bajas entre los grupos de una característica.
Modelos de regresión y series temporales
En los modelos de regresión y series temporales, el sesgo se mide comparando la frecuencia con la que los modelos cometen errores en sus predicciones, utilizando relaciones de paridad para determinar la equidad de los resultados predichos.
Se calculan las siguientes métricas de sesgo, utilizando métricas de error que se usan comúnmente para evaluar la precisión del modelo:
Valores aceptables para las métricas de sesgo
| Métrica de sesgo | Categoría de sesgo | Tipos de modelo aplicables | Valores aceptables |
|---|---|---|---|
| Relación de paridad de la tasa de representación | Sesgo de datos | Todos |
Valor ideal: entre 0,8 y 1. Una relación más baja indica una representación desproporcionada. |
| Relación de paridad de la distribución condicional | Sesgo de datos | Todos |
Valor ideal: entre 0,8 y 1. Una proporción menor indica una representación desproporcionada. |
| Diferencia de paridad estadística (SPD) | Sesgo del modelo | Clasificación binaria, clasificación multiclase |
Valor ideal: 0. Un valor superior a 0,2 es una señal clara de parcialidad o desigualdad. |
| Impacto desigual (DI) | Sesgo del modelo | Clasificación binaria, clasificación multiclase |
Valor ideal: 1. Un valor inferior a 0.8 indica desigualdad. |
| Diferencia en la igualdad de oportunidades (EOD) | Sesgo del modelo | Clasificación binaria, clasificación multiclase |
Valor ideal: 0. Un valor superior a 0.1 indica desigualdad. |
| Relación de paridad MAE | Sesgo del modelo | Regresión |
Valor ideal: entre 0,8 y 1. Un valor superior a 1.25 indica desigualdad. |
| Relación de paridad MSE | Sesgo del modelo | Regresión |
Valor ideal: entre 0,8 y 1. Un valor superior a 1.25 indica desigualdad. |
| Relación de paridad RMSE | Sesgo del modelo | Regresión |
Valor ideal: entre 0,8 y 1. Un valor superior a 1.25 indica desigualdad. |
| Brecha R2 | Sesgo del modelo | Regresión |
Valor ideal: 0. Un valor superior a 0.2 indica desigualdad. |
| Relación de paridad MASE | Sesgo del modelo | Serie de tiempo | Un valor superior a 1.25 indica desigualdad. |
| Relación de paridad MAPE | Sesgo del modelo | Serie de tiempo | Un valor superior a 1.25 indica desigualdad. |
| Relación de paridad SMAPE | Sesgo del modelo | Serie de tiempo | Un valor superior a 1.25 indica desigualdad. |
Configuración de la detección de sesgos
La detección de sesgos se configura por característica de entrenamiento en la versión del experimento.
Haga lo siguiente:
-
En un experimento de ML, expanda Sesgo en el panel de configuración del entrenamiento.
-
Seleccione las características en las que desea ejecutar la detección de sesgos.
Alternativamente, active la detección de sesgos para las características deseadas en la vista de esquema.
Análisis rápido de los resultados de sesgo
Tras finalizar el entrenamiento, puede obtener una descripción general rápida de los resultados de detección de sesgo en la pestaña Modelos.
Desplácese por los elementos de análisis rápido para encontrar Detección de sesgos. Expanda las secciones usando los iconos . Puede analizar características con posibles sesgos de datos y modelos.
Análisis del sesgo de datos mediante la sección Detección de sesgos en la pestaña Modelos.

Notas
-
Grupos favorecidos son los valores o rangos objetivo que están sobrerrepresentados en los datos o en los resultados proyectados del objetivo, según las métricas de sesgo. Grupos perjudicados son los valores o rangos objetivo que están infrarrepresentados en los datos o en los resultados proyectados del objetivo, según las métricas de sesgo.
Para obtener información sobre cómo se utilizan las métricas de sesgo, consulte Valores aceptables para las métricas de sesgo.
Los números entre paréntesis describen los criterios utilizados para calcular la métrica. Por ejemplo, si la métrica es la diferencia de oportunidad equitativa (EOD), femenino (10%) y masculino (80%) indica tasas de verdaderos positivos del 80% para hombres y del 10% para mujeres.
-
Resultado objetivo se refiere al valor de la columna objetivo que predice el modelo.
-
No todas las métricas y valores de sesgo se muestran en la pestaña Modelos debido al espacio limitado. Por ejemplo:
-
Según los tipos de métrica y modelo, algunas métricas y grupos pueden incluir solo mínimos y máximos.
-
Si varias métricas superan el umbral de sesgo para una característica, se muestra la métrica que indica el mayor grado de parcialidad.
-
Para las características sesgadas en modelos de clasificación multiclase, solo se muestra la métrica que indica el mayor grado de parcialidad.
-
-
Hay información más detallada disponible en la pestaña Analizar y en el informe de entrenamiento del modelo. Vea Análisis detallado de los resultados de sesgo.
- Para obtener más información sobre la terminología de esta sección, consulte Terminología en esta página.
Análisis detallado de los resultados de sesgo
Puede profundizar en los resultados de sesgo en la pestaña Analizar.
Haga lo siguiente:
-
En un experimento de ML, seleccione un modelo y vaya a la pestaña Analizar.
-
Abra la hoja Sesgo.
-
Seleccione entre Sesgo de datos y Sesgo del modelo en función del análisis deseado.
-
En la tabla Características con posible sesgo, seleccione una única característica.
Los gráficos y las métricas que indican un posible sesgo se muestran con un fondo rojo. Puede seleccionar características haciendo clic y marcando el contorno en las visualizaciones.
Las métricas de la tabla son estáticas para las métricas de sesgo correspondientes a las características estándar. Para las características futuras, las métricas de sesgo cambian dinámicamente en función de la selección del grupo de series temporales.
La pestaña Analizar muestra un análisis del sesgo del modelo para la característica seleccionada. El posible sesgo se indica mediante fondos rojos para gráficos y métricas.

Para obtener más información sobre la navegación por los análisis detallados del modelo, consulte Realización de análisis detallados de modelos.
Resultados de sesgo en informes de entrenamiento
Las métricas de sesgo también se presentan en los informes de entrenamiento de ML.Se incluyen en una sección específica de Sesgo en el informe.
Para obtener más información sobre los informes de entrenamiento, vea Descargar informes de entrenamiento de ML.
Abordar el sesgo
Tras analizar los resultados de detección de sesgo de sus modelos, es posible que desee hacer cualquiera de las siguientes acciones:
-
Ejecutar nuevas versiones del experimento una vez eliminadas las características sesgadas.
-
Evitar implementar modelos que muestren sesgos; en su lugar, implemente modelos que cumplan los criterios recomendados para las métricas de sesgo.
-
Actualizar su conjunto de datos para corregir cualquier recopilación de datos incorrecta o para abordar tasas de representación desiguales.
-
Redefinir el interrogante de aprendizaje automático utilizando el marco estructurado. Por ejemplo, si su pregunta original de aprendizaje automático está sesgada de forma inherente, es probable que los modelos siempre sean poco fiables a la hora de crear predicciones imparciales y justas.
Definir las preguntas de aprendizaje automático
Trabajar con la previsión de series temporales multivariantes
Terminología en esta página
En esta página, y en Qlik Predict, «grupos» es un término que tiene diferentes significados según el contexto:
-
«Grupos» se refiere a los valores o rangos en las características que se están analizando en busca de sesgos. Por ejemplo, una característica de Estado civil podría tener cuatro grupos posibles en los datos de entrenamiento: Casado, Divorciado, Separado o Viudo.
-
En los experimentos de series temporales, «grupos» se refiere a la funcionalidad que permite rastrear los resultados objetivo para valores específicos de características compatibles. En esta página, estos grupos se denominan «grupos de series temporales». Para obtener más información sobre estos grupos, consulte Grupos.
Limitaciones
-
No puede activar la detección de sesgos para:
-
La característica objetivo.
-
Características de texto libre (incluso si el tipo de característica se cambia a categórico).
-
Características de fecha que se utilizan como índice de fecha en experimentos de series temporales.
-
Características de fecha de ingeniería automática. Puede ejecutar la detección de sesgos en estas características, pero no las activa de forma independiente. En su lugar, active la característica de fecha principal para la detección de sesgos y asegúrese de que las características de fecha de ingeniería automática se incluyan para el entrenamiento.
-