기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

회귀 문제

회귀 문제는 숫자 대상 열이 있는 기계 학습 문제입니다. 다음 예에서는 정확한 방식으로 비즈니스 질문의 프레임을 구성한 다음 모든 기능이 동일한 기반에 있는 교육 데이터 집합을 집계하는 방법을 보여 줍니다. 이는 예측 회귀 모델을 생성하기 위한 좋은 기반을 제공합니다.

회귀 분석 예: 고객 수명 가치

기록 고객에 대해 교육된 기계 학습 모델이 해당 예측에 영향을 미치는 여러 기능을 사용하여 고객 수명 가치를 예측하는 방법을 학습한다고 가정하고 시작합니다. 모든 기록 및 현재 고객에 대한 기록 정보가 포함된 데이터 집합을 수집합니다. 각 고객에 대해 하나의 행이 있으며 열은 고객 ID, 성별, 연령, 고객이 된 날짜, 우편 번호, 구매 횟수 및 총 금전적 지출과 같이 고객을 설명하는 기능을 나타냅니다.

수집 데이터 샘플

교육 데이터 샘플이 있는 테이블.

고객 수명 가치를 총 금전적 지출로 정의하고, 데이터 집합을 기계 학습 알고리즘에 공급하고, 총 금전적 지출을 예측하는 방법을 학습하도록 할 수 있습니다. 미래에 새로운 고객이 확보되면 교육된 알고리즘을 사용하여 고객 수명 동안 제공할 금전적 가치를 예측할 수 있습니다. 그러나 이 방법에는 다음과 같은 몇 가지 문제가 있습니다.

  • 데이터 집합에는 하루, 한 달 또는 1년 동안 고객이었던 사람들이 포함될 수 있습니다. 총 금전적 지출의 가치는 고객이 지출할 금액이 아니라 현재까지 지출한 총 금액을 반영합니다.

  • 계정이 생성된 지 하루가 된 고객은 수익률이 높은 고객의 특성을 가질 수 있습니다. 그러나 어제 막 고객이 되었기 때문에 한 번만 구매하고 많은 금액을 사용하지 않았습니다. 이러한 고객을 교육 데이터 집합에 포함함으로써 많은 돈을 벌지 않는 유형의 고객이라고 기계 학습 알고리즘을 잘못 가르치고 있습니다.

  • 첫 달 동안 일주일에 세 번 제품을 주문하여 총 12번 구매한 신규 고객이 있을 수 있습니다. 1년 동안 고객이었고 한 달에 한 번 구매한 다른 사람이 같은 금액을 지출했을 수 있습니다. 기계 학습 알고리즘은 이 두 고객을 고객 수명 가치 측면에서 동등한 위치에 놓을 것입니다. 실제로는 한 달 된 고객이 장기적으로 훨씬 더 가치가 있을 수 있습니다.

이러한 위험을 피하려면 고객 수명 가치를 정의하는 방법과 문제에 대한 데이터 집합을 준비하는 방법이 엄밀해야 합니다. 이를 달성하는 좋은 방법은 문제 정의에 시간을 요소로 포함시키는 것입니다.

시간 요소 포함

시간 요소를 포함하기 위해 고객의 첫해 가치를 고객으로서 첫 해에 지출한 총 금액으로 정의하는 것으로 시작합니다. 그런 다음 처음 3개월 동안 고객의 행동을 첫 해 동안의 총 지출을 예측할 기능으로 사용할 수 있습니다. 첫해 가치는 시간 프레임을 포함하는 관심 메트릭의 정확한 정의입니다. 이와 같이 정확하게 정의된 메트릭을 만들 때의 이점은 교육 데이터 집합의 모든 예를 동일한 기반에 두는 것입니다.

이제 사람들이 고객이 된 첫해 동안 지출한 총 금액을 살펴보고 있으므로 교육 데이터 집합을 최소 1년 동안 있었던 고객으로 제한해야 합니다. 다음과 같은 데이터 집합을 준비할 수 있습니다.

시간 요소를 포함하는 데이터 집합

교육 데이터 샘플이 있는 테이블.

여기에서 각 행은 최소 1년 동안 고객이었던 사람을 나타냅니다. 열에는 고객이 된 시점의 고객을 설명하는 기능과 선택한 시간 프레임 동안 고객의 활동을 나타내는 기능이 포함됩니다.

활동은 처음 3개월 동안 이루어진 구매 수와 처음 3개월 동안의 총 금전적 지출로 측정됩니다. 대상 열은 첫 해에 지출한 총 금액을 나타냅니다. 이것이 기계 학습 알고리즘이 예측하도록 가르칠 첫해 값입니다.

이제 시간 범위 내에서 정의된 매우 정확한 질문을 하고 있다는 점에 유의해야 합니다. "고객이 처음 3개월 동안의 행동을 기반으로 첫해에 얼마나 많은 금액을 가져올지 예측합니다."

회귀와 시계열 문제 비교

회귀 문제는 대상 변수와 관련된 실제 사용 사례 측면에서 시계열 문제와 유사합니다. 이 두 가지 문제 유형 사이에는 여러 가지 차이점이 있습니다.

시계열 문제에 대한 자세한 내용은 시계열 문제를 참조하십시오.

유사점

  • 둘 다 숫자형 대상 열을 포함합니다.

  • 둘 다 일반적으로 판매 및 통화 예측과 관련된 재무적 사용 사례에 사용됩니다.

차이점

  • 시계열 문제는 그룹화된 대상을 지원하지만 회귀 문제는 지원하지 않습니다(시계열 문제의 구성 요소 참조). 여러 개의 서로 다른 모델을 학습하여 회귀 문제의 그룹화된 시나리오를 처리할 수 있지만, 이는 그룹 전체에 걸친 전역적 학습을 수행해야 합니다.

  • 시계열 문제는 특정 기능 변수를 미리 알고 있는 시나리오를 지원합니다(예: 날씨 관련 예측, 계획된 프로모션 할인, 날짜가 주중, 주말, 휴일에 해당하는지 여부). 이러한 기능 변수는 향후 기능으로 알려져 있습니다.

  • 시계열 문제의 경우, 데이터는 고정된 시간 간격의 날짜 또는 날짜/시간으로 인덱싱되어야 합니다. 또한, 교육 및 예측 중에 다른 데이터 콘텐츠가 예측되고 생성됩니다(교육 데이터 집합 준비적용 데이터 집합 준비 참조).

  • 시계열 문제에서는 예측 값이 특정 날짜와 시간에 명시적으로 대응합니다. 회귀 문제에서 예측된 값은 특정 날짜 및 시간과 일치할 수도 있고 그렇지 않을 수도 있지만, 일치한다면 그 연관성은 출력에 명시적으로 표시되지 않고 암시적으로 나타납니다.

  • 다양한 알고리즘이 사용됩니다(모델 알고리즘 이해 참조).

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!