Обнаружение предвзятости в моделях машинного обучения
Вы можете выявить предвзятость в моделях машинного обучения, которые вы обучаете в экспериментах ML. Устраните обнаруженную предвзятость, отбрасывая перекошенные характеристики, исправляя неправильный сбор данных или изменяя структуру вашего обучающего набора данных.
Понимание предвзятости
В машинном обучении предвзятость — это нежелательное явление, при котором модели отдают или могут отдавать предпочтение определенным группам перед другими. Предвзятость негативно влияет на справедливость и имеет этические последствия для прогнозов и решений, на которые они влияют. Предвзятость может быть внесена в обучающие данные, в результаты, предсказанные обученными моделями, или в то и другое.
Примеры предвзятости — и ее последствий для принятия решений — включают:
-
Обучение моделей на данных, которые непропорционально представляют определенные уровни дохода или состояния здоровья, что приводит к несправедливым решениям по страховым требованиям.
-
Обучение моделей на искаженных данных в отношении расы и пола кандидатов, что влияет на решения о найме.
-
Обучение моделей, которые связывают почтовые индексы с кредитоспособностью.
Смещение данных
Предвзятость данных возникает, когда данные, используемые для обучения модели, искажены таким образом, что отдают предпочтение одним группам перед другими. Предвзятость данных вызвана неравным представлением групп в обучающих данных.
Например, набор данных для прогнозирования результатов найма может содержать данные, которые представляют один пол как более успешный, чем другие.
Предвзятость данных может быть внесена в обучающие данные несколькими способами, включая:
-
Неправильный сбор данных, в котором определенные группы недостаточно представлены или чрезмерно представлены.
-
Данные, которые точно отражают исторические закономерности, но выявляют скрытую предвзятость в этих тенденциях и практиках.
Данные на визуализации ниже указывают на предвзятость данных.
Пример предвзятости данных, визуализированный с помощью линейчатой диаграммы. В исходных данных определенные семейные положения чрезмерно представлены по сравнению с другими в отношении уровней дохода.

Смещение модели
Предвзятость модели, или алгоритмическая предвзятость, возникает, когда прогнозы, сделанные моделью машинного обучения, отдают предпочтение одним группам перед другими. При предвзятости модели, модели устанавливают связи между определенными группами и результатами, негативно влияя на другие группы. Предвзятость модели может быть вызвана неправильно собранными или искаженными данными, а также особенностями поведения используемого алгоритма обучения.
Например, модель может предсказывать непропорционально низкие показатели найма для определенных возрастных групп из-за несправедливых связей, установленных моделью.
Визуализация со вкладки Анализ в эксперименте машинного обучения, подчеркивающая предвзятость модели. Визуализация показывает, что модель делает более высокие прогнозы дохода для определенных семейных положений, чем для других.

Метрики предвзятости данных
В Qlik Predict предвзятость данных измеряется путем анализа:
-
Показатель представленности: Сравнивает распределение данных, принадлежащих каждой группе в функциональности, по сравнению со всеми данными в функциональности. Вычисленная метрика — это паритетное отношение показателя представленности.
-
Паритетное отношение условного распределения: Сравнивает баланс между данными для каждой группы в функциональности относительно значений целевого столбца. Вычисленная метрика — это паритетное отношение условного распределения.
Чтобы узнать больше о допустимых значениях для этих метрик, см. Допустимые значения для метрик смещения.
Метрики предвзятости модели
В Qlik Predict метрики предвзятости модели лучше всего понимать в контексте типа модели для эксперимента. В общих чертах существуют следующие категории метрик предвзятости:
-
Метрики моделей классификации
-
Метрики моделей регрессии и временных рядов
Чтобы узнать больше о допустимых значениях для этих метрик, см. Допустимые значения для метрик смещения.
Модели классификации
В моделях бинарной и многоклассовой классификации смещение измеряется путем анализа прогнозируемых целевых значений (результатов). В частности, сравниваются различия в показателях положительных и отрицательных результатов для групп (здесь «положительные» и «отрицательные» относятся к благоприятным и неблагоприятным результатам — например, значение да или нет для целевого столбца Нанят). Эти модели имеют следующие метрики смещения:
-
Косвенная дискриминация
-
Разность статистического паритета
-
Разность равных возможностей
Косвенная дискриминация
Коэффициент неравномерного воздействия (DI) оценивает, получают ли группы с чувствительным признаком преимущества или ущерб в прогнозируемых результатах модели. Измеряется путем расчета того, как часто каждая группа выбирается в качестве прогнозируемого значения, сравнивая это с частотой выбора для наиболее привилегированной группы в функциональности.
Разность статистического паритета
Подобно разрозненному воздействию, разница статистического паритета (SPD) оценивает прогнозы модели, чтобы определить, благоприятствуют ли они или вредят каким-либо отдельным группам. Метрика рассчитывается путем сравнения показателей положительных результатов между самой большой и самой маленькой группами.
Разность равных возможностей
Разница равных возможностей (EOD) аналогична двум другим метрикам смещения модели классификации. EOD сравнивает самые высокие и самые низкие показатели истинно положительных результатов по группам в функциональности.
Модели регрессии и временных рядов
В моделях регрессии и временных рядов смещение измеряется путем сравнения частоты ошибок моделей в их прогнозах, используя паритетные отношения для определения справедливости прогнозируемых результатов.
Рассчитываются следующие метрики смещения, используя метрики ошибок, которые обычно используются для оценки Точности модели:
Допустимые значения для метрик смещения
| Метрика смещения | Категория смещения | Применимые типы моделей | Допустимые значения |
|---|---|---|---|
| Паритетное отношение репрезентативных групп | Смещение данных | Все |
Идеальное значение: от 0,8 до 1. Более низкое отношение указывает на непропорциональное представление. |
| Паритетное отношение условного распределения | Смещение данных | Все |
Идеальное значение: от 0,8 до 1. Более низкое отношение указывает на непропорциональное представление. |
| Разность статистического паритета (РСП) | Смещение модели | Двоичная классификация, многоклассовая классификация |
Идеальное значение: 0. Значение выше 0,2 является сильным сигналом несправедливости. |
| Косвенная дискриминация (DI) | Смещение модели | Двоичная классификация, многоклассовая классификация |
Идеальное значение: 1. Значение ниже 0,8 сигнализирует о несправедливости. |
| Разность равных возможностей (EOD) | Смещение модели | Двоичная классификация, многоклассовая классификация |
Идеальное значение: 0. Значение выше 0,1 сигнализирует о несправедливости. |
| Паритетное отношение MAE | Смещение модели | Регрессия |
Идеальное значение: между 0,8 и 1. Значение выше 1,25 сигнализирует о несправедливости. |
| Паритетное отношение MSE | Смещение модели | Регрессия |
Идеальное значение: между 0,8 и 1. Значение выше 1,25 сигнализирует о несправедливости. |
| Паритетное отношение RMSE | Смещение модели | Регрессия |
Идеальное значение: от 0,8 до 1. Значение выше 1,25 сигнализирует о несправедливости. |
| Разрыв R2 | Смещение модели | Регрессия |
Идеальное значение: 0. Значение выше 0,2 сигнализирует о несправедливости. |
| Паритетное отношение MASE | Смещение модели | Временной ряд | Значение выше 1,25 указывает на несправедливость. |
| Паритетное отношение MAE | Смещение модели | Временной ряд | Значение выше 1,25 указывает на несправедливость. |
| Паритетное отношение SMAPE | Смещение модели | Временной ряд | Значение выше 1.25 сигнализирует о несправедливости. |
Настройка обнаружения предвзятости
Обнаружение предвзятости настраивается для каждой обучающей характеристики в версии эксперимента.
Выполните следующие действия.
-
В эксперименте машинного обучения разверните Смещение на панели конфигурации обучения.
-
Выберите функциональность, характеристики, для которых вы хотите запустить обнаружение смещения.
В качестве альтернативы включите обнаружение смещения для нужных функциональность, характеристики в представлении схемы.
Быстрый анализ результатов предвзятости
После завершения обучения вы можете получить быстрый обзор результатов обнаружения предвзятости на вкладке Models.
Прокрутите вниз список элементов быстрого анализа, чтобы найти Обнаружение смещения. Разверните разделы с помощью значков. Вы можете анализировать признаки с возможными смещениями данных и моделей.
Анализ смещения данных с помощью раздела Обнаружение смещения на вкладке Модели.

Примечания
-
Привилегированные группы — это целевые значения или диапазоны, которые чрезмерно представлены в данных или прогнозируемых результатах целевого объекта на основе метрик смещения. Ущемленные группы — это целевые значения или диапазоны, которые недостаточно представлены в данных или прогнозируемых результатах целевого объекта на основе метрик смещения.
Информацию о том, как используются метрики смещения, см. Допустимые значения для метрик смещения.
Числа в скобках описывают критерии, используемые для расчета метрики. Например, если метрика — разница равных возможностей (EOD), женщины (10%) и мужчины (80%) указывает на истинно положительные показатели 80% для мужчин и 10% для женщин.
-
Целевой результат относится к значению целевого столбца, которое прогнозируется моделью.
-
Не все метрики и значения смещения отображаются на вкладке Модели из-за ограниченного пространства. Например:
-
В зависимости от типа метрики и модели, некоторые метрики и группы могут включать только минимумы и максимумы.
-
Если несколько метрик превышают порог смещения для функциональности, отображается метрика, указывающая на наивысшую степень несправедливости.
-
Для смещенных характеристик в моделях многоклассовой классификации отображается только метрика, указывающая на наивысшую степень несправедливости.
-
-
Более подробная информация доступна на вкладке Анализ и в отчете об обучении модели. См. Подробный анализ результатов смещения.
- Дополнительную информацию о терминологии в этом разделе см. Терминология на этой странице.
Подробный анализ результатов смещения
Вы можете углубиться в результаты смещения на вкладке Анализ.
Выполните следующие действия.
-
В эксперименте МО выберите модель и перейдите на вкладку Анализ.
-
Откройте лист Смещение.
-
Выберите между Смещением данных и Смещением модели в зависимости от требуемого анализа.
-
В таблице Характеристики с потенциальным смещением выберите одну характеристику.
Диаграммы и метрики, указывающие на возможное смещение, отображаются с красным фоном. Вы можете выбирать характеристики, щелкая и рисуя в визуализациях.
Метрики в таблице статичны для метрик смещения, соответствующих стандартным характеристикам. Для будущих характеристик метрики смещения динамически изменяются в зависимости от выбора группы временных рядов.
Вкладка Анализ, показывающая анализ смещения модели для выбранной характеристики. Возможное смещение обозначается красным фоном для диаграмм и метрик.

Для получения дополнительной информации о навигации по подробным анализам моделей см. Выполнение подробного анализа модели.
Результаты смещения в отчетах об обучении
Метрики смещения также представлены в отчетах об обучении ML.Они включены в специальный раздел «Смещение» в отчете.
Дополнительные сведения об отчетах об обучении см. Загрузка отчетов об обучении модели.
Устранение предвзятости
После анализа результатов обнаружения предвзятости для ваших моделей вы можете выполнить любое из следующих действий:
-
Запустить новые версии экспериментов после удаления предвзятых признаков.
-
Избегать развертывания моделей, демонстрирующих предвзятость, вместо этого развертывать модели, соответствующие рекомендуемым критериям для метрик предвзятости.
-
Обновите свой набор данных, чтобы исправить любой ненадлежащий сбор данных или устранить неравные показатели представленности.
-
Переопределите свою проблему машинного обучения, используя структурированную основу. Например, если ваш исходный вопрос машинного обучения изначально предвзят, модели, скорее всего, всегда будут ненадежными в создании справедливых прогнозов.
Терминология на этой странице
На этой странице, и в Qlik Predict, «группы» — это термин, который имеет разные значения в зависимости от контекста:
-
«Группы» относятся к значениям или диапазонам в характеристиках, которые анализируются на предмет предвзятости. Например, характеристика «Семейное положение» может иметь четыре возможные группы в обучающих данных: «Женат/Замужем», «Разведен/Разведена», «Раздельное проживание» или «Вдовец/Вдова».
-
В экспериментах с временными рядами «группы» относятся к функциональности, которая позволяет отслеживать целевые результаты для определенных значений совместимых характеристик. На этой странице эти группы называются «группами временных рядов». Дополнительные сведения об этих группах см. Группы.
Ограничения
-
Вы не можете активировать обнаружение смещения для:
-
Целевой признак.
-
Признаки свободного текста (даже если тип признака изменен на категориальный).
-
Признаки даты, которые используются в качестве индекса даты в экспериментах с временными рядами.
-
Автоматически созданные признаки даты. Вы можете запустить обнаружение смещения для этих признаков, но вы не активируете их независимо. Вместо этого активируйте родительский признак даты для обнаружения предвзятости и убедитесь, что автоматически сгенерированные признаки даты включены для обучения.
-