머신러닝 모델에서 편향 감지
ML 실험에서 훈련하는 머신러닝 모델의 편향을 식별할 수 있습니다. 치우친 기능을 삭제하거나, 부적절한 데이터 수집을 수정하거나, 훈련 데이터세트의 구조를 변경하여 감지된 편향을 해결할 수 있습니다.
편향에 대한 이해
머신러닝에서 편향은 모델이 특정 그룹을 다른 그룹보다 선호하거나 선호할 수 있는 바람직하지 않은 현상입니다. 편향은 공정성에 부정적인 영향을 미치며 예측 및 예측이 영향을 미치는 결정에 윤리적 함의를 가집니다. 편향은 학습 데이터, 학습된 모델이 예측하는 결과 또는 둘 다에서 도입될 수 있습니다.
편향의 예시—및 의사 결정에 미치는 영향—는 다음과 같습니다.
-
특정 소득 수준 또는 건강 상태를 불균형적으로 나타내는 데이터로 모델을 학습하여 보험 청구에 대한 불공정한 결정으로 이어지는 경우.
-
지원자의 인종 및 성별에 대해 편향된 데이터로 모델을 학습하여 채용 결정에 영향을 미치는 경우.
-
우편번호를 신용도와 연결하는 모델 훈련.
데이터 바이어스
데이터 편향은 모델 훈련에 사용되는 데이터가 특정 그룹에 유리하도록 다른 그룹보다 왜곡될 때 발생합니다. 데이터 편향은 훈련 데이터에서 그룹 간의 불균등한 표현으로 인해 발생합니다.
예를 들어, 채용 결과를 예측하기 위한 데이터 세트에는 특정 성별이 다른 성별보다 더 성공적이라고 나타내는 데이터가 포함될 수 있습니다.
데이터 편향은 다음과 같은 여러 가지 방법으로 훈련 데이터에 도입될 수 있습니다.
-
특정 그룹이 과소 대표되거나 과대 대표되는 부적절한 데이터 수집.
-
역사적 패턴을 정확하게 반영하지만, 이러한 경향과 관행에 내재된 편향을 드러내는 데이터.
아래 시각화의 데이터는 데이터 편향을 나타냅니다.
막대형 차트로 시각화된 데이터 편향의 예시. 원본 데이터에서 소득 수준과 관련하여 특정 혼인 상태가 다른 상태에 비해 과대 대표됩니다.

모델 바이어스
모델 편향 또는 알고리즘 편향은 머신러닝 모델이 만든 예측이 특정 그룹에 다른 그룹보다 유리하게 작용할 때 발생합니다. 모델 편향이 있을 경우, 모델은 특정 그룹과 결과 사이에 연관성을 만들고, 이는 다른 그룹에 부정적인 영향을 미칩니다. 모델 편향은 부적절하게 수집되거나 왜곡된 데이터뿐만 아니라 사용 중인 훈련 알고리즘에 특정한 동작으로 인해 발생할 수 있습니다.
예를 들어, 모델이 만든 불공정한 연관성 때문에 특정 연령대에 대해 불균형적으로 부정적인 고용률을 예측할 수 있습니다.
ML 실험의 분석 탭에서 모델 편향을 강조하는 시각화. 시각화는 모델이 특정 혼인 상태에 대해 다른 혼인 상태보다 더 높은 소득 예측을 한다는 것을 보여줍니다.

데이터 편향 측정항목
Qlik 프로젝트에서 데이터 편향은 다음을 분석하여 측정됩니다.
-
대표율: 기능의 각 그룹에 속하는 데이터 분포를 기능의 모든 데이터와 비교합니다. 계산된 측정항목은 대표율 패리티 비율입니다.
-
조건부 배포 패리티 비율: 타겟 열의 값과 관련하여 기능의 각 그룹에 대한 데이터 간의 균형을 비교합니다. 계산된 측정항목은 조건부 배포 패리티 비율입니다.
이러한 측정항목의 허용 가능한 값에 대해 자세히 알아보려면 바이어스 측정항목의 허용 가능한 값를 참조하세요.
모델 편향 메트릭
Qlik 프로젝트에서, 모델 편향 메트릭은 실험을 위한 모델 유형의 맥락에서 가장 잘 이해됩니다. 크게 보면, 다음과 같은 편향 메트릭 범주가 있습니다:
-
분류 모델 메트릭
-
회귀 및 시계열 모델 메트릭
이러한 측정항목에 허용되는 값에 대해 자세히 알아보려면 바이어스 측정항목의 허용 가능한 값을(를) 참조하세요.
분류 모델
이진 및 다중 클래스 분류 모델에서 편향은 예측된 대상 값(결과)을 분석하여 측정됩니다. 특히, 그룹에 대한 긍정적 및 부정적 결과율의 차이가 비교됩니다(여기서 '긍정적' 및 '부정적'은 유리한 결과와 불리한 결과를 의미합니다. 예를 들어, 고용됨 대상 열에 대한 예 또는 아니요 값). 이러한 모델에는 다음의 편향 측정항목이 있습니다:
-
불균형적 영향
-
통계적 패리티 차이
-
동등한 기회 차이
불균형적 영향
불균형 영향 비율(DI)은 민감한 기능의 그룹이 모델의 예측 결과에서 선호되거나 피해를 입고 있는지 평가합니다. 각 그룹이 예측값으로 선택되는 빈도를 계산하여 측정하며, 기능에서 가장 선호되는 그룹의 선택률과 비교합니다.
통계적 패리티 차이
불균형 영향과 유사하게, 통계적 동등성 차이(SPD)는 모델 예측을 평가하여 특정 개별 그룹에 유리하거나 해로운지 여부를 판단합니다. 이 지표는 가장 큰 그룹과 가장 작은 그룹 간의 긍정적인 결과율을 비교하여 계산됩니다.
동등한 기회 차이
균등 기회 차이(EOD)는 다른 두 가지 분류 모델 편향 지표와 유사합니다. EOD는 기능 내 그룹 전반에 걸쳐 가장 높고 낮은 참 양성률을 비교합니다.
회귀 및 시계열 모델
회귀 및 시계열 모델에서 편향은 모델이 예측에서 오류를 범하는 빈도를 비교하여 측정되며, 예측 결과의 공정성을 결정하기 위해 패리티 비율을 사용합니다.
모델 정확도를 평가하는 데 일반적으로 사용되는 오류 메트릭을 사용하여 다음 편향 메트릭이 계산됩니다.
바이어스 측정항목의 허용 가능한 값
| 바이어스 측정항목 | 바이어스 카테고리 | 적용 가능한 모델 유형 | 허용되는 값 |
|---|---|---|---|
| 표시율 패리티 비율 | 데이터 바이어스 | 모두 |
이상적인 값: 0.8에서 1 사이. 비율이 낮을수록 불균형한 표시를 나타냅니다. |
| 조건부 배포 패리티 비율 | 데이터 바이어스 | 모두 |
이상적인 값: 0.8에서 1 사이. 비율이 낮을수록 불균형한 대표성을 나타냅니다. |
| 통계적 패리티 차이 (SPD) | 모델 바이어스 | 이진 분류, 다중 클래스 분류 |
이상적인 값: 0. 0.2를 초과하는 값은 불공정성의 강력한 신호입니다. |
| 불균형적 영향 (DI) | 모델 바이어스 | 이진 분류, 다중 클래스 분류 |
이상적인 값: 1. 0.8 미만의 값은 불공정성을 나타냅니다. |
| 동등한 기회 차이 (EOD) | 모델 바이어스 | 이진 분류, 다중 클래스 분류 |
이상적인 값: 0. 0.1을 초과하는 값은 불공정성을 나타냅니다. |
| MAE 패리티 비율 | 모델 바이어스 | 회귀 |
이상적인 값: 0.8에서 1 사이. 1.25를 초과하는 값은 불공정성을 나타냅니다. |
| MSE 패리티 비율 | 모델 바이어스 | 회귀 |
이상적인 값: 0.8에서 1 사이. 1.25를 초과하는 값은 불공정성을 나타냅니다. |
| RMSE 패리티 비율 | 모델 바이어스 | 회귀 |
이상적인 값: 0.8에서 1 사이. 1.25를 초과하는 값은 불공정성을 나타냅니다. |
| R2 차이 | 모델 바이어스 | 회귀 |
이상적인 값: 0. 0.2를 초과하는 값은 불공정성을 나타냅니다. |
| MASE 패리티 비율 | 모델 바이어스 | 시계열 | 1.25를 초과하는 값은 불공정함을 나타냅니다. |
| MAPE 패리티 비율 | 모델 바이어스 | 시계열 | 1.25를 초과하는 값은 불공정함을 나타냅니다. |
| SMAPE 패리티 비율 | 모델 바이어스 | 시계열 | 1.25를 초과하는 값은 불공정성을 나타냅니다. |
편향 감지 구성
편향 감지는 실험 버전의 학습 기능별로 구성됩니다.
다음과 같이 하십시오.
-
ML 실험에서 학습 구성 패널의 편향을 확장합니다.
-
편향 감지를 실행하려는 기능을 선택합니다.
또는 스키마 보기에서 원하는 기능에 대한 편향 감지를 켭니다.
편향 결과 빠른 분석
학습이 완료되면 모델 탭에서 편향 감지 결과의 빠른 개요를 확인할 수 있습니다.
빠른 분석 항목을 아래로 스크롤하여 편향 감지를 찾으십시오. 아이콘을 사용하여 섹션을 확장합니다. 가능한 데이터 및 모델 편향이 있는 기능을 분석할 수 있습니다.
모델 탭의 편향 감지 섹션을 사용하여 데이터 편향을 분석합니다.

메모
-
선호 그룹은(는) 편향 메트릭을 기반으로 데이터 또는 대상의 예상 결과에서 과도하게 표현되는 대상 값 또는 범위입니다. 피해 그룹은(는) 편향 메트릭을 기반으로 데이터 또는 대상의 예상 결과에서 과소하게 표현되는 대상 값 또는 범위입니다.
편향 메트릭이 사용되는 방법에 대한 정보는 바이어스 측정항목의 허용 가능한 값를 참조하십시오.
괄호 안의 숫자는 메트릭을 계산하는 데 사용되는 기준을 설명합니다. 예를 들어, 지표가 균등 기회 차이(EOD)인 경우, 여성(10%) 및 남성(80%)은 남성의 경우 80%, 여성의 경우 10%의 실제 양성률을 나타냅니다.
-
대상 결과는 모델에 의해 예측되는 대상 열의 값을 나타냅니다.
-
공간 제약으로 인해 모든 편향 지표 및 값이 모델 탭에 표시되지는 않습니다. 예:
-
지표 및 모델 유형에 따라 일부 지표 및 그룹에는 최소값과 최대값만 포함될 수 있습니다.
-
여러 지표가 기능에 대한 편향 임계값을 초과하는 경우, 가장 높은 불공정도를 나타내는 지표가 표시됩니다.
-
다중 클래스 분류 모델의 편향된 기능의 경우, 가장 높은 불공정성 정도를 나타내는 지표만 표시됩니다.
-
-
분석 탭 및 모델 학습 보고서에서 더 자세한 정보를 확인할 수 있습니다. 편향 결과의 상세 분석을 참조하십시오.
- 이 섹션의 용어에 대한 자세한 내용은 이 페이지의 용어을(를) 참조하십시오.
편향 결과의 상세 분석
분석 탭에서 편향 결과를 더 자세히 살펴볼 수 있습니다.
다음과 같이 하십시오.
-
ML 실험에서 모델을 선택하고 분석 탭으로 이동합니다.
-
편향 시트를 엽니다.
-
원하는 분석에 따라 데이터 편향과 모델 편향 중에서 선택합니다.
-
잠재적 편향이 있는 기능 테이블에서 단일 기능을 선택합니다.
가능한 편향을 나타내는 차트 및 측정항목은 빨간색 배경으로 표시됩니다. 시각화에서 클릭하고 그려서 기능을 선택할 수 있습니다.
테이블의 지표는 표준 기능에 해당하는 편향 지표에 대해 정적입니다. 향후 기능의 경우, 편향 지표는 시계열 그룹 선택에 따라 동적으로 변경됩니다.
선택한 기능에 대한 모델 편향 분석을 보여주는 분석 탭. 가능한 편향은 차트 및 지표의 빨간색 배경으로 표시됩니다.

세부 모델 분석 탐색에 대한 자세한 내용은 세부 모델 분석 수행을 참조하십시오.
학습 보고서의 편향 결과
편향 측정항목은 ML 학습 보고서에도 표시됩니다.해당 보고서의 전용 Bias 섹션에 포함되어 있습니다.
교육 보고서에 대한 자세한 내용은 ML 교육 보고서 다운로드를 참조하십시오.
편향 해결
모델에 대한 편향 감지 결과를 분석한 후 다음 중 하나를 수행할 수 있습니다.
-
편향된 기능을 제외한 후 새 실험 버전을 실행합니다.
-
편향을 보이는 모델 배포를 피하고, 대신 편향 측정항목에 대한 권장 기준을 충족하는 모델을 배포합니다.
-
데이터세트를 업데이트하여 부적절한 데이터 수집을 수정하거나 불균등한 표현율을 해결하세요.
-
구조화된 프레임워크를 사용하여 머신러닝 문제를 재정의하세요. 예를 들어, 원래 머신러닝 질문에 본질적인 편향이 있다면, 모델은 공정한 예측을 생성하는 데 항상 신뢰할 수 없을 것입니다.
이 페이지의 용어
이 페이지에서, 그리고 Qlik 프로젝트에서, “그룹”은 문맥에 따라 다른 의미를 갖는 용어입니다.
-
"그룹"은 편향 분석을 위해 분석되는 기능의 값 또는 범위를 나타냅니다. 예를 들어, 혼인 상태 기능에는 훈련 데이터에 기혼, 이혼, 별거, 사별의 네 가지 가능한 그룹이 있을 수 있습니다.
-
시계열 실험에서 "그룹"은 호환되는 기능의 특정 값에 대해 목표 결과를 추적할 수 있도록 하는 기능을 의미합니다. 이 페이지에서는 이러한 그룹을 "시계열 그룹"이라고 합니다. 이러한 그룹에 대한 자세한 내용은 그룹을(를) 참조하십시오.
제한 사항
-
다음 항목에 대해서는 편향 감지를 활성화할 수 없습니다.
-
대상 기능.
-
자유 텍스트 기능(기능 유형이 범주형으로 변경되더라도).
-
시계열 실험에서 날짜 인덱스로 사용되는 날짜 기능.
-
자동 엔지니어링 날짜 기능. 이러한 기능에 대해 편향 감지를 실행할 수 있지만, 독립적으로 활성화하지는 않습니다. 대신, 편향 감지를 위해 상위 날짜 기능을 활성화하고, 자동으로 엔지니어링된 날짜 기능이 학습에 포함되도록 하십시오.
-