기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 유출

데이터 유출은 기계 학습 알고리즘을 학습하는 데 사용되는 데이터에 예측하려는 정보가 포함되어 있음을 의미합니다. 이로 인해 모델이 실제보다 교육에서 더 잘 수행되어 모델이 얼마나 잘 수행되는지에 대한 잘못된 확신이 생길 수 있습니다. 신뢰할 수 있는 예측을 위해 데이터 유출을 식별하고 방지하는 방법을 알아봅니다.

데이터 유출에는 두 가지 형태가 있습니다.

  • 트레이닝 집합에 있는 하나 이상의 기능을 사용하여 예측하려는 대상 변수를 도출할 수 있는 경우.

  • 트레이닝 집합의 하나 이상의 기능에 예측 시 알려지지 않은 정보가 포함되어 있는 경우.

다음 표에서 단계 열은 예측하려는 단계(이진) 열의 중복 열입니다. 교육 데이터 집합에 단계를 포함하면 예상 결과에 대한 답변을 제공하여 모델에 대한 높은 점수를 얻을 수 있습니다.

대상 열 단계(이진)에 대한 정보가 포함된 "유출 열" 단계가 있는 테이블

샘플 데이터가 있는 테이블.

데이터 유출 식별

데이터 유출을 식별하려면 "예측을 하려는 시점에 레코드에 대해 동일한 정보를 갖고 있습니까?" 또는 "레코드가 30일 후에도 동일할까요?"와 같은 질문을 고려합니다. 교육 데이터 집합의 모든 데이터는 비즈니스 질문의 시간 제약 조건과 관련이 있어야 합니다.

모델을 교육한 경우 모델 메트릭에서 다음 단서를 찾을 수 있습니다.

  • 높은 점수: 점수가 정말 높습니까? 예를 들어, F1 점수가 85점 이상입니까?

  • 기능 중요도: 하나의 기능이 다른 모든 것보다 훨씬 더 중요합니까?

  • 홀드아웃 점수: 홀드아웃 점수가 교차 유효성 검사 점수보다 훨씬 낮습니까?

이 표는 데이터 유출을 유발할 수 있는 일반적인 기능의 예를 보여 줍니다.

비즈니스 사용 사례 대상

잠재적인 유출 기능

판매 기회가 닫힙니까?

닫기(예 또는 아니오)

단계, 마감일, 인보이스 내역, 지급 수수료

미래 트랜잭션 금액 예측

다음 트랜잭션 금액

세금, 주문 세부 정보

리드가 기회로 변환됩니까?

변환(예 또는 아니오)

기회 세부 정보, 변환 날짜

고객이 이탈할까요?

이탈(예 또는 아니요)

이탈 이유, 이탈 날짜, 정적 고객 가입 기간, 고객 온도

직원이 자발적으로 퇴사합니까?

퇴사(예 또는 아니오)

퇴사 면접 내용, 종료 일자, 사직서 정보

데이터 유출 방지

데이터 유출을 방지하는 가장 좋은 방법은 구조화된 프레임워크를 사용하여 좋은 비즈니스 질문과 데이터 집합을 얻는 것입니다. 자세한 내용은 기계 학습 질문 정의을 참조하십시오.

팁 메모모델 교육에 사용하면 안 되는 유출 열을 식별한 경우 데이터 집합에 계속 유지할 수 있습니다. 기계 학습 실험의 교육 데이터에서 이 기능을 제외하기만 하면 됩니다.
관련 학습 자료:

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!