기계 학습 질문 정의
비즈니스 사용 사례를 구체적이고 실행 가능한 기계 학습 질문으로 전환하는 것은 어려울 수 있습니다. 일반적인 위험을 피하고 우수한 예측 모델을 생성하려면 구조화된 프레임워크를 따르십시오.
이 프레임워크는 기계 학습 질문을 정의하는 방법과 사용할 준비가 된 잘 구성된 데이터 집합을 수집하는 방법을 설명합니다. 데이터 집합 준비에 대한 자세한 내용은 교육을 위해 데이터 집합 준비하기를 참조하십시오.
프레임워크는 다음 네 부분으로 구성됩니다.
-
이벤트 트리거
-
대상
-
기능
-
예측점
이벤트 트리거
이벤트 트리거는 새 예측 만들기를 트리거하는 작업 또는 이벤트입니다. 각 이벤트 트리거는 단일 데이터 행에 해당합니다.
대상
대상은 예측하려는 값입니다. 값(결과)을 정의하는 방법과 값이 확인되는 시간 프레임(기간) 모두에서 구체적이어야 합니다. 결과와 기간을 정의하는 것은 비즈니스 컨텍스트와 사용할 수 있는 데이터에 따라 다릅니다. 대상이 비즈니스 컨텍스트와 관련이 있는지 확인하고 예측 값으로 수행할 작업에 대해 생각하십시오.
대상은 기계 학습 알고리즘을 교육하는 데 사용하는 데이터 집합의 단일 열에 표시됩니다.
기능
기능은 대상 값을 예측하는 데 사용되는 데이터 집합의 다른 열입니다. 어떤 변수가 대상에 영향을 미칠지에 대한 가설입니다. 기계 학습 알고리즘은 이 기능을 사용하여 교육 중에 일반적인 패턴을 학습하고 새로운 데이터 행을 예측합니다.
기능 열은 각 기능이 단일 열로 표시되는 대부분의 교육 데이터 집합을 구성합니다. 기능은 이벤트 트리거 수준 이상으로 집계되어야 합니다.
기능은 고정될 수 있습니다. 즉, 이벤트 트리거 시 또는 이전에 알려지거나 기간 종속적이므로 이벤트 트리거 이후이지만 예측점 이전에 데이터가 수집됩니다.
예측점
예측점은 기능에 대한 데이터 수집을 중단하고 각 행에 대한 대상을 예측하는 지정된 시간입니다. 예측점을 결정하는 것은 정확도(품질 기능 데이터를 수집하기에 충분히 늦게 예측)와 실행 가능성(결과에 영향을 미칠 수 있는 작업을 취할 수 있을 만큼 일찍 예측) 사이의 균형입니다.
이벤트 트리거와 예측점 사이의 시간이 데이터 누적 창입니다. 기능 데이터를 수집하는 데 사용되는 시간입니다. 예측점과 기간 사이의 시간은 행동 창이며 예측된 것에 대해 행동하는 데 사용되는 시간입니다. 예측점은 이벤트 트리거와 대상 기간 사이의 어디에나 속할 수 있습니다.
예: 구조화된 프레임워크
다음 예에서는 다양한 비즈니스 사용 사례에서 구조화된 프레임워크를 사용할 수 있는 방법을 보여 줍니다. 프레임워크가 단계별로 적용되는 자세한 예는 구조화된 프레임워크 적용: 고객 이탈 예을 참조하십시오.
고객 수명 가치
-
이벤트 트리거: 고객의 첫 주문
-
대상: 최초 3년간 총 주문량
-
숫자 결과: 달러 금액
-
기간은 평균 고객 수명 주기 길이를 기준으로 합니다.
-
-
기능: 리드 소스, 첫 주문 금액, 첫 주문에 사용된 할인(예 또는 아니오), 배송 상태, 배송 지역, 첫 주문 제품 수
-
예측점: 첫 주문 후 3개월
-
기계 학습 질문: "향후 33개월 동안 총 주문 금액은 얼마인지를 고객의 첫 주문 후 3개월 예측"
고객 재구매
-
이벤트 트리거: 고객의 주문
-
대상: 6개월 이내에 또 다른 주문이 이루어짐
-
이진 결과: 예 또는 아니오
-
재구매 고객의 90%가 6개월 이내에 재구매한다는 데이터가 확인되는 기간
-
-
기능: 트래픽 소스, 이전 주문 수, 사용된 할인, 배송 상태, 배송 지역, 주문된 제품 수, 배송 알림 이메일 열림(예 또는 아니요), 10일 이내에 사이트 반환, 마케팅 이메일 등록(예 또는 아니요)
-
예측점: 주문 후 일주일
-
기계 학습 질문: "6개월 이내에 다시 주문할지를 고객이 주문한 후 일주일 후에 예측"
판매 리드 변환
-
이벤트 트리거: 판매 리드가 만들어짐
-
대상: 만들어진 후 12개월 이내에 마감 성공으로 변환
-
이진 결과: 예 또는 아니오
-
판매 주기를 기록하기 위한 길이를 기준으로 한 기간
-
-
기능: 리드 소스, 산업, 회사 규모, 처음 30일 동안의 접점 수, 30일 이내에 예정된 회의(예 또는 아니요), 정확한 전화 번호(예 또는 아니요)
-
예측점: 리드를 만든 후 30일
-
기계 학습 질문: "향후 11개월 이내에 해당 리드가 마감 성공 기회로 변환될지를 안내문이 만들어진 다음 30일 후에 예측"
학생 졸업
-
이벤트 트리거: 학생이 수락됨
-
대상: 프로그램 시작일로부터 6년 이내에 졸업하는 학생
-
이진 결과: 예 또는 아니오
-
기간은 졸업까지의 기간을 기록하기 위한 길이를 기반으로 함
-
-
기능: 고등학교 유형, 고등학교 GPA, SAT/ACT 점수, 배치 시험 점수, 고등학교에서 등록 캠퍼스까지의 거리, 장학금 수준, 부모의 교육 수준, 첫 학기 GPA, 첫 학기 학점 수
-
예측점: 등록 첫 학기 종료
-
기계 학습 질문: "6학년 말까지 학생이 졸업할 것인지를 1학기 말에 예측"
월별 판매
-
이벤트 트리거: 매월 1일
-
대상: 월 중 판매(단위)
-
숫자 결과: 판매 단위 수
-
기간은 캘린더 월을 기준으로 합니다.
-
-
기능: 제품 유형, 월 이름, 분기, 작년 같은 달 판매, 2년 전 같은 달 판매, 전월 판매, 평균 할인율(%), 마케팅 비용
-
예측점: 매월 1일
-
기계 학습 질문: "월말까지 총 판매량은 얼마가 될지를 매월 1일 예측"