회귀 문제
회귀 문제는 숫자 대상 열이 있는 기계 학습 문제입니다. 다음 예에서는 정확한 방식으로 비즈니스 질문의 프레임을 구성한 다음 모든 기능이 동일한 기반에 있는 교육 데이터 집합을 집계하는 방법을 보여 줍니다. 이는 예측 회귀 모델을 생성하기 위한 좋은 기반을 제공합니다.
회귀 예: 고객 수명 가치
기록 고객에 대해 교육된 기계 학습 모델이 해당 예측에 영향을 미치는 여러 기능을 사용하여 고객 수명 가치를 예측하는 방법을 학습한다고 가정하고 시작합니다. 모든 기록 및 현재 고객에 대한 기록 정보가 포함된 데이터 집합을 수집합니다. 각 고객에 대해 하나의 행이 있으며 열은 고객 ID, 성별, 연령, 고객이 된 날짜, 우편 번호, 구매 횟수 및 총 금전적 지출과 같이 고객을 설명하는 기능을 나타냅니다.
고객 수명 가치를 총 금전적 지출로 정의하고, 데이터 집합을 기계 학습 알고리즘에 공급하고, 총 금전적 지출을 예측하는 방법을 학습하도록 할 수 있습니다. 미래에 새로운 고객이 확보되면 교육된 알고리즘을 사용하여 고객 수명 동안 제공할 금전적 가치를 예측할 수 있습니다. 그러나 이 방법에는 다음과 같은 몇 가지 문제가 있습니다.
-
데이터 집합에는 하루, 한 달 또는 1년 동안 고객이었던 사람들이 포함될 수 있습니다. 총 금전적 지출의 가치는 고객이 지출할 금액이 아니라 현재까지 지출한 총 금액을 반영합니다.
-
계정이 생성된 지 하루가 된 고객은 수익률이 높은 고객의 특성을 가질 수 있습니다. 그러나 어제 막 고객이 되었기 때문에 한 번만 구매하고 많은 금액을 사용하지 않았습니다. 이러한 고객을 교육 데이터 집합에 포함함으로써 많은 돈을 벌지 않는 유형의 고객이라고 기계 학습 알고리즘을 잘못 가르치고 있습니다.
-
첫 달 동안 일주일에 세 번 제품을 주문하여 총 12번 구매한 신규 고객이 있을 수 있습니다. 1년 동안 고객이었고 한 달에 한 번 구매한 다른 사람이 같은 금액을 지출했을 수 있습니다. 기계 학습 알고리즘은 이 두 고객을 고객 수명 가치 측면에서 동등한 위치에 놓을 것입니다. 실제로는 한 달 된 고객이 장기적으로 훨씬 더 가치가 있을 수 있습니다.
이러한 위험을 피하려면 고객 수명 가치를 정의하는 방법과 문제에 대한 데이터 집합을 준비하는 방법이 엄밀해야 합니다. 이를 달성하는 좋은 방법은 문제 정의에 시간을 요소로 포함시키는 것입니다.
시간 요소 포함
시간 요소를 포함하기 위해 고객의 첫해 가치를 고객으로서 첫 해에 지출한 총 금액으로 정의하는 것으로 시작합니다. 그런 다음 처음 3개월 동안 고객의 행동을 첫 해 동안의 총 지출을 예측할 기능으로 사용할 수 있습니다. 첫해 가치는 시간 프레임을 포함하는 관심 메트릭의 정확한 정의입니다. 이와 같이 정확하게 정의된 메트릭을 만들 때의 이점은 교육 데이터 집합의 모든 예를 동일한 기반에 두는 것입니다.
이제 사람들이 고객이 된 첫해 동안 지출한 총 금액을 살펴보고 있으므로 교육 데이터 집합을 최소 1년 동안 있었던 고객으로 제한해야 합니다. 다음과 같은 데이터 집합을 준비할 수 있습니다.
여기에서 각 행은 최소 1년 동안 고객이었던 사람을 나타냅니다. 열에는 고객이 된 시점의 고객을 설명하는 기능과 선택한 시간 프레임 동안 고객의 활동을 나타내는 기능이 포함됩니다.
활동은 처음 3개월 동안 이루어진 구매 수와 처음 3개월 동안의 총 금전적 지출로 측정됩니다. 대상 열은 첫 해에 지출한 총 금액을 나타냅니다. 이것이 기계 학습 알고리즘이 예측하도록 가르칠 첫해 값입니다.
이제 시간 프레임 내에서 정의된 매우 정확한 질문을 어떻게 하고 있는지 확인합니다. "고객이 처음 3개월 동안의 행동을 기반으로 첫해에 얼마나 많은 금액을 가져올지 예측합니다."