Обнаружение предвзятости в моделях машинного обучения

Вы можете выявить предвзятость в моделях машинного обучения, которые вы обучаете в экспериментах ML. Кроме того, можно выбрать получение рекомендаций от большой языковой модели (LLM) для характеристик, которые могут быть подвержены предвзятости. Устраняйте обнаруженную предвзятость, отбрасывая искаженные характеристики, исправляя некорректный сбор данных или изменяя структуру обучающего набора данных.

Qlik не гарантирует точность, полноту или надежность результатов обнаружения предвзятости и не обеспечивает соответствие каким-либо местным, государственным, федеральным или международным законам, нормативным актам или отраслевым стандартам. Пользователь принимает на себя весь риск и ответственность за любые действия, предпринятые на основе выходных данных инструмента, которые не должны использоваться в качестве замены профессиональной юридической консультации или независимого аудита человеком.

Обнаружение предвзятости имеет необязательный компонент, который использует генеративный искусственный интеллект (GenAI) для рекомендации характеристик, которые могут быть подвержены предвзятости. Пользователь должен просматривать и проверять любые рекомендации GenAI, а также оценивать, подходит ли их использование для конкретного сценария применения и соответствует ли оно применимому законодательству.

Понимание предвзятости

В машинном обучении предвзятость — это нежелательное явление, при котором модели отдают или могут отдавать предпочтение определенным группам перед другими. Предвзятость негативно влияет на справедливость и имеет этические последствия для прогнозов и решений, на которые они влияют. Предвзятость может быть внесена в обучающие данные, в результаты, предсказанные обученными моделями, или в то и другое.

Примеры предвзятости — и ее последствий для принятия решений — включают:

Обучение моделей на данных, которые непропорционально представляют определенные уровни дохода или состояния здоровья, что приводит к несправедливым решениям по страховым требованиям.
Обучение моделей на искаженных данных в отношении расы и пола кандидатов, что влияет на решения о найме.
Обучение моделей, которые связывают почтовые индексы с кредитоспособностью.

Смещение данных

Предвзятость данных возникает, когда данные, используемые для обучения модели, искажены таким образом, что отдают предпочтение одним группам перед другими. Предвзятость данных вызвана неравным представлением групп в обучающих данных.

Например, набор данных для прогнозирования результатов найма может содержать данные, которые представляют один пол как более успешный, чем другие.

Предвзятость данных может быть внесена в обучающие данные несколькими способами, включая:

Неправильный сбор данных, в котором определенные группы недостаточно представлены или чрезмерно представлены.
Данные, которые точно отражают исторические закономерности, но выявляют скрытую предвзятость в этих тенденциях и практиках.

Данные на визуализации ниже указывают на предвзятость данных.

Предвзятые данные, которые внесут предвзятость в данные при использовании в модели машинного обучения. — Пример предвзятости данных, визуализированный с помощью линейчатой диаграммы. В исходных данных определенные семейные положения чрезмерно представлены по сравнению с другими в отношении уровней дохода.

Смещение модели

Предвзятость модели, или алгоритмическая предвзятость, возникает, когда прогнозы, сделанные моделью машинного обучения, отдают предпочтение одним группам перед другими. При предвзятости модели, модели устанавливают связи между определенными группами и результатами, негативно влияя на другие группы. Предвзятость модели может быть вызвана неправильно собранными или искаженными данными, а также особенностями поведения используемого алгоритма обучения.

Например, модель может предсказывать непропорционально низкие показатели найма для определенных возрастных групп из-за несправедливых связей, установленных моделью.

Вкладка «Анализ» в эксперименте машинного обучения, показывающая предвзятость модели. — Визуализация со вкладки Анализ в эксперименте машинного обучения, подчеркивающая предвзятость модели. Визуализация показывает, что модель делает более высокие прогнозы дохода для определенных семейных положений, чем для других.

Метрики предвзятости данных

В Qlik Predict предвзятость данных измеряется путем анализа:

Показатель представленности: Сравнивает распределение данных, принадлежащих каждой группе в функциональности, по сравнению со всеми данными в функциональности. Вычисленная метрика — это паритетное отношение показателя представленности.
Паритетное отношение условного распределения: Сравнивает баланс между данными для каждой группы в функциональности относительно значений целевого столбца. Вычисленная метрика — это паритетное отношение условного распределения.

Чтобы узнать больше о допустимых значениях для этих метрик, см. Допустимые значения для метрик смещения.

Метрики предвзятости модели

В Qlik Predict метрики предвзятости модели лучше всего понимать в контексте типа модели для эксперимента. В общих чертах существуют следующие категории метрик предвзятости:

Метрики моделей классификации
Метрики моделей регрессии и временных рядов

Чтобы узнать больше о допустимых значениях для этих метрик, см. Допустимые значения для метрик смещения.

Модели классификации

В моделях бинарной и многоклассовой классификации смещение измеряется путем анализа прогнозируемых целевых значений (результатов). В частности, сравниваются различия в показателях положительных и отрицательных результатов для групп (здесь «положительные» и «отрицательные» относятся к благоприятным и неблагоприятным результатам — например, значение да или нет для целевого столбца Нанят). Эти модели имеют следующие метрики смещения:

Косвенная дискриминация
Разность статистического паритета
Разность равных возможностей

Косвенная дискриминация

Коэффициент неравномерного воздействия (DI) оценивает, получают ли группы с чувствительным признаком преимущества или ущерб в прогнозируемых результатах модели. Измеряется путем расчета того, как часто каждая группа выбирается в качестве прогнозируемого значения, сравнивая это с частотой выбора для наиболее привилегированной группы в функциональности.

Разность статистического паритета

Подобно разрозненному воздействию, разница статистического паритета (SPD) оценивает прогнозы модели, чтобы определить, благоприятствуют ли они или вредят каким-либо отдельным группам. Метрика рассчитывается путем сравнения показателей положительных результатов между самой большой и самой маленькой группами.

Разность равных возможностей

Разница равных возможностей (EOD) аналогична двум другим метрикам смещения модели классификации. EOD сравнивает самые высокие и самые низкие показатели истинно положительных результатов по группам в функциональности.

Модели регрессии и временных рядов

В моделях регрессии и временных рядов смещение измеряется путем сравнения частоты ошибок моделей в их прогнозах, используя паритетные отношения для определения справедливости прогнозируемых результатов.

Рассчитываются следующие метрики смещения, используя метрики ошибок, которые обычно используются для оценки Точности модели:

Паритетное отношение MAE

MAE
Паритетное отношение MSE

MSE
Паритетное отношение RMSE

RMSE
Разрыв R2

R2
Паритетное отношение MASE

MASE
Паритетное отношение MAE

MAPE
Паритетное отношение SMAPE

SMAPE

Допустимые значения для метрик смещения

Метрики смещения — допустимые диапазоны и значения
Метрика смещения	Категория смещения	Применимые типы моделей	Допустимые значения
Паритетное отношение репрезентативных групп	Смещение данных	Все	Идеальное значение: от 0,8 до 1. Более низкое отношение указывает на непропорциональное представление.
Паритетное отношение условного распределения	Смещение данных	Все	Идеальное значение: от 0,8 до 1. Более низкое отношение указывает на непропорциональное представление.
Разность статистического паритета (РСП)	Смещение модели	Двоичная классификация, многоклассовая классификация	Идеальное значение: 0. Значение выше 0,2 является сильным сигналом несправедливости.
Косвенная дискриминация (DI)	Смещение модели	Двоичная классификация, многоклассовая классификация	Идеальное значение: 1. Значение ниже 0,8 сигнализирует о несправедливости.
Разность равных возможностей (EOD)	Смещение модели	Двоичная классификация, многоклассовая классификация	Идеальное значение: 0. Значение выше 0,1 сигнализирует о несправедливости.
Паритетное отношение MAE	Смещение модели	Регрессия	Идеальное значение: от 0,8 до 1. Значение выше 1,25 сигнализирует о несправедливости.
Паритетное отношение MSE	Смещение модели	Регрессия	Идеальное значение: от 0,8 до 1. Значение выше 1,25 сигнализирует о несправедливости.
Паритетное отношение RMSE	Смещение модели	Регрессия	Идеальное значение: от 0,8 до 1. Значение выше 1,25 сигнализирует о несправедливости.
Разрыв R2	Смещение модели	Регрессия	Идеальное значение: 0. Значение выше 0,2 сигнализирует о несправедливости.
Паритетное отношение MASE	Смещение модели	Временной ряд	Значение выше 1,25 указывает на несправедливость.
Паритетное отношение MAE	Смещение модели	Временной ряд	Значение выше 1,25 указывает на несправедливость.
Паритетное отношение SMAPE	Смещение модели	Временной ряд	Значение выше 1.25 сигнализирует о несправедливости.

Настройка обнаружения предвзятости

Обнаружение предвзятости настраивается для каждой обучающей характеристики в версии эксперимента.

Выполните следующие действия.

В эксперименте машинного обучения разверните Смещение на панели конфигурации обучения.
Перед выбором признаков для обнаружения предвзятости, при необходимости нажмите Получить рекомендации, чтобы использовать генеративный ИИ для предложения признаков, которые могут содержать предвзятые данные. См. Использование генеративного ИИ для рекомендации характеристик для обнаружения предвзятости.
Выберите или отмените выбор любых признаков, для которых вы хотите запустить обнаружение предвзятости.

В качестве альтернативы включите обнаружение смещения для нужных функциональность, характеристики в Строки представлении схемы.

Использование генеративного ИИ для рекомендации характеристик для обнаружения предвзятости

Вы можете использовать встроенную интеграцию с большой языковой моделью (LLM) для рекомендации потенциально чувствительных характеристик перед запуском эксперимента.

Как это работает

Когда вы нажимаете Получить рекомендации, названия признаков и образцы данных сканируются LLM, чтобы определить, какие из ваших признаков рекомендуется выбрать для обнаружения предвзятости.
Рекомендации генерируются в ответ на запросы вывода, которые могут обрабатываться за пределами региона вашего клиента Qlik Cloud.

Примечание к информацииНезависимо от того, находится ли она в состоянии покоя или передается, ваши данные всегда зашифрованы.
После получения рекомендаций вы можете просмотреть обоснование каждой рекомендации. Например, вы можете увидеть, рекомендован ли признак из-за потенциальной географической предвзятости.
Рекомендации от LLM представлены на английском языке.

Просмотр рекомендаций ИИ по функциональностям, для которых предлагается обнаружение предвзятости. — Нажмите Получить рекомендации, чтобы использовать ИИ для предложенных функциональностей, на которых следует запустить обнаружение предвзятости.

Административные требования

Функции ИИ (то есть межрегиональный вывод) должны быть включены администратором клиента, чтобы эта функциональность была доступна. Это можно сделать в разделе Администрирование центра активности.

Для получения дополнительной информации см. раздел Включение межрегионального инференса.
В дополнение к разрешениям на настройку экспериментов, пользователи должны иметь разрешение Управление экспериментами ML, установленное на Разрешено там, где разрешено использование GenAI. Для получения дополнительной информации см. раздел Использование инструментов ИИ в экспериментах ML.

Быстрый анализ результатов предвзятости

После завершения обучения вы можете получить быстрый обзор результатов обнаружения предвзятости на вкладке Models.

Прокрутите вниз список элементов быстрого анализа, чтобы найти Обнаружение смещения. Разверните разделы с помощью Стрелка выпадающего списка вниз значков. Вы можете анализировать признаки с возможными смещениями данных и моделей.

Анализ смещения данных с помощью раздела Обнаружение смещения на вкладке Модели.

Примечания

Привилегированные группы — это целевые значения или диапазоны, которые чрезмерно представлены в данных или прогнозируемых результатах целевого объекта на основе метрик смещения. Ущемленные группы — это целевые значения или диапазоны, которые недостаточно представлены в данных или прогнозируемых результатах целевого объекта на основе метрик смещения.

Информацию о том, как используются метрики смещения, см. Допустимые значения для метрик смещения.

Числа в скобках описывают критерии, используемые для расчета метрики. Например, если метрика — разница равных возможностей (EOD), женщины (10%) и мужчины (80%) указывает на истинно положительные показатели 80% для мужчин и 10% для женщин.
Целевой результат относится к значению целевого столбца, которое прогнозируется моделью.
Не все метрики и значения смещения отображаются на вкладке Модели из-за ограниченного пространства. Например:
- В зависимости от типа метрики и модели, некоторые метрики и группы могут включать только минимумы и максимумы.
- Если несколько метрик превышают порог смещения для функциональности, отображается метрика, указывающая на наивысшую степень несправедливости.
- Для смещенных характеристик в моделях многоклассовой классификации отображается только метрика, указывающая на наивысшую степень несправедливости.
Более подробная информация доступна на вкладке Анализ и в отчете об обучении модели. См. Подробный анализ результатов смещения.
Дополнительную информацию о терминологии в этом разделе см. Терминология на этой странице.

Подробный анализ результатов смещения

Вы можете углубиться в результаты смещения на вкладке Анализ.

Выполните следующие действия.

В эксперименте МО выберите модель и перейдите на вкладку Анализ.
Откройте лист Смещение.
Выберите между Смещением данных и Смещением модели в зависимости от требуемого анализа.
В таблице Характеристики с потенциальным смещением выберите одну характеристику.

Диаграммы и метрики, указывающие на возможное смещение, отображаются с красным фоном. Вы можете выбирать характеристики, щелкая и рисуя в визуализациях.

Метрики в таблице статичны для метрик смещения, соответствующих стандартным характеристикам. Для будущих характеристик метрики смещения динамически изменяются в зависимости от выбора группы временных рядов.

Анализ смещения модели в детальном виде с помощью листа «Смещение» на вкладке «Анализ». — Вкладка Анализ, показывающая анализ смещения модели для выбранной характеристики. Возможное смещение обозначается красным фоном для диаграмм и метрик.

Для получения дополнительной информации о навигации по подробным анализам моделей см. Выполнение подробного анализа модели.

Результаты смещения в отчетах об обучении

Метрики смещения также представлены в отчетах об обучении ML.Они включены в специальный раздел «Смещение» в отчете.

Дополнительные сведения об отчетах об обучении см. Загрузка отчетов об обучении модели.

Устранение предвзятости

После анализа результатов обнаружения предвзятости для ваших моделей вы можете выполнить любое из следующих действий:

Запустить новые версии экспериментов после удаления предвзятых признаков.

Настройка новой версии
Избегать развертывания моделей, демонстрирующих предвзятость, вместо этого развертывать модели, соответствующие рекомендуемым критериям для метрик предвзятости.

Развертывание моделей
Обновите свой набор данных, чтобы исправить любой ненадлежащий сбор данных или устранить неравные показатели представленности.

Подготовка набора данных к обучению
Переопределите свою проблему машинного обучения, используя структурированную основу. Например, если ваш исходный вопрос машинного обучения изначально предвзят, модели, скорее всего, всегда будут ненадежными в создании справедливых прогнозов.

Формулирование задач машинного обучения

Работа с многомерным прогнозированием временных рядов

Терминология на этой странице

На этой странице, и в Qlik Predict, «группы» — это термин, который имеет разные значения в зависимости от контекста:

«Группы» относятся к значениям или диапазонам в характеристиках, которые анализируются на предмет предвзятости. Например, характеристика «Семейное положение» может иметь четыре возможные группы в обучающих данных: «Женат/Замужем», «Разведен/Разведена», «Раздельное проживание» или «Вдовец/Вдова».
В экспериментах с временными рядами «группы» относятся к функциональности, которая позволяет отслеживать целевые результаты для определенных значений совместимых характеристик. На этой странице эти группы называются «группами временных рядов». Дополнительные сведения об этих группах см. Группы.

Ограничения

Существуют некоторые ограничения на размеры обучающих наборов данных, если включено обнаружение предвзятости. См. Ограничения набора данных для обучения и профилирования.
Вы не можете активировать обнаружение смещения для:
- Целевой признак.
- Признаки свободного текста (даже если тип признака изменен на категориальный).
- Признаки даты, которые используются в качестве индекса даты в экспериментах с временными рядами.
- Автоматически созданные признаки даты. Вы можете запустить обнаружение смещения для этих признаков, но вы не активируете их независимо. Вместо этого активируйте родительский признак даты для обнаружения предвзятости и убедитесь, что автоматически сгенерированные признаки даты включены для обучения.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь