데이터 유출
데이터 유출은 기계 학습 알고리즘을 학습하는 데 사용되는 데이터에 예측하려는 정보가 포함되어 있음을 의미합니다. 이로 인해 모델이 실제보다 교육에서 더 잘 수행되어 모델이 얼마나 잘 수행되는지에 대한 잘못된 확신이 생길 수 있습니다. 신뢰할 수 있는 예측을 위해 데이터 유출을 식별하고 방지하는 방법을 알아봅니다.
일반적으로 데이터 유출은 다음 중 하나 이상으로 인해 발생합니다.
-
트레이닝 집합에 있는 하나 이상의 기능을 사용하여 예측하려는 대상 변수를 도출할 수 있는 경우. 예를 들어, 대상은 Sales 필드이고 기능 중 하나는 Sales에서 계산되는 Sales Tax 필드입니다.
-
트레이닝 집합의 하나 이상의 기능에 예측 시 알려지지 않은 정보가 포함되어 있는 경우.
다음 표에서 Stage 열은 예측하려는 Stage (Binary) 열과 중복되는 열입니다. 교육 데이터 집합에 Stage을 포함하면 예상 결과에 대한 답변을 제공하여 모델에 대한 높은 점수를 얻을 수 있습니다.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
대상 유출
대상 유출은 데이터 유출의 한 형태입니다. 대상 유출은 기능 데이터가 예측에 사용될 수 있는 대상 데이터를 참조할 때 발생합니다. 참조 또는 "유출"은 직접적이거나 간접적일 수 있습니다.
지능형 모델 최적화를 통해 AutoML은 대상 유출을 식별하고 모델에 도입되는 것을 방지합니다. 대상 유출을 나타내는 기능은 자동으로 감지되어 모델 교육에서 제거됩니다. 지능형 모델 최적화에 대한 자세한 내용은 지능형 모델 최적화를 참조하십시오.
데이터 유출 식별
데이터 유출을 식별하려면 "예측을 하려는 시점에 레코드에 대해 동일한 정보를 갖고 있습니까?" 또는 "레코드가 30일 후에도 동일할까요?"와 같은 질문을 고려합니다. 교육 데이터 집합의 모든 데이터는 비즈니스 질문의 시간 제약 조건과 관련이 있어야 합니다.
모델을 교육한 경우 모델 메트릭에서 다음 단서를 찾을 수 있습니다.
-
높은 점수: 점수가 정말 높습니까? 예를 들어, F1 점수가 85점 이상입니까?
-
기능 중요성: 하나의 기능이 다른 모든 것보다 훨씬 더 중요합니까?
-
홀드아웃 점수: 홀드아웃 점수가 교차 유효성 검사 점수보다 훨씬 낮습니까?
이 표는 데이터 유출을 유발할 수 있는 일반적인 기능의 예를 보여 줍니다.
비즈니스 사용 사례 | 대상 |
잠재적인 유출 기능 |
---|---|---|
판매 기회가 닫힙니까? |
닫기(예 또는 아니오) |
단계, 마감일, 인보이스 내역, 지급 수수료 |
미래 트랜잭션 금액 예측 |
다음 트랜잭션 금액 |
세금, 주문 세부 정보 |
리드가 기회로 변환됩니까? |
변환(예 또는 아니오) |
기회 세부 정보, 변환 날짜 |
고객이 이탈할까요? |
이탈(예 또는 아니요) |
이탈 이유, 이탈 날짜, 정적 고객 가입 기간, 고객 온도 |
직원이 자발적으로 퇴사합니까? |
퇴사(예 또는 아니오) |
퇴사 면접 내용, 종료 일자, 사직서 정보 |
데이터 유출 방지
데이터 유출을 방지하는 가장 좋은 방법은 구조화된 프레임워크를 사용하여 좋은 비즈니스 질문과 데이터 집합을 얻는 것입니다. 자세한 내용은 기계 학습 질문 정의를 참조하십시오.