분류 문제
대상 열이 범주 열인 문제를 분류 문제라고 합니다. 이진 분류 문제에는 예 또는 아니요와 같은 두 가지 가능한 범주가 있는 반면 다중 클래스 분류 문제에는 가능한 범주가 두 개 이상 있습니다.
다음 예에서는 두 가지 유형의 분류 문제를 설명합니다. 또한 기계 학습 질문을 정의할 때 몇 가지 고려 사항에 대해서도 설명합니다.
이진 분류 예: 고객 이탈
이 예에서 회사는 구독 기반 모델을 제공합니다. 모든 과거 및 현재 고객에 대한 데이터가 수집되었습니다. 고객은 구독 취소(이탈) 여부로 레이블이 지정되었습니다.
다음 표는 수집된 데이터를 보여 줍니다. 각 행은 고유한 고객을 나타내고 열은 해당 고객을 설명하는 다양한 기능을 나타냅니다. 마지막 열이 대상입니다. 이는 고객이 구독을 취소했는지(예 또는 아니요)를 지정하는 이진 열입니다.
이 데이터 집합을 사용하여 특정 고객이 이탈할지 예측하는 기계 학습 알고리즘을 학습시킬 수 있습니다. 그러나 이 방법에는 다음과 같은 몇 가지 문제가 있습니다.
-
데이터 집합은 신규 고객과 기존 고객을 비교하며 아직 취소하지 않은 고객이 향후 취소할지 여부에 대한 정보는 없습니다.
-
새로 획득한 고객은 이탈할 수 있음을 나타내는 특성이 있을 수 있습니다(첫 달에 많이 구매하지 않는 20대 남성은 곧 구독을 취소하는 경향이 있음을 알고 있을 것입니다). 그러나 새로 획득되어 아직 취소되지 않았기 때문에 이러한 특성을 취소하지 않을 충성도 높은 고객과 연결하기 위해 기계 학습 알고리즘을 학습시키고 있습니다.
이탈을 정의하는 방법과 문제에 대한 데이터 집합을 준비하는 방법을 정확하게 지정하여 이러한 위험을 피합니다. 기계 학습으로 해결할 수 있도록 정확하고 적절한 방식으로 비즈니스 질문을 하는 방법에 대한 감각은 연습을 통해 얻을 수 있습니다. 이를 수행하는 방법에 대한 좋은 예와 나쁜 예를 모두 확인하면 비즈니스 응용 프로그램용 기계 학습을 시작할 때 도움이 됩니다. 기계 학습에 대한 비즈니스 질문의 프레임을 지정하는 방법이 확실하지 않은 경우 비즈니스 메트릭 정의에 시간 프레임을 통합하는 것이 좋습니다. 이 전략은 오래 지속되는 경우가 많습니다.
시간 요소 포함
질문에 시간을 통합하여 보겠습니다. 처음 6개월 이내에 어떤 고객이 서비스를 취소할지를 연구할 수 있습니다. 예를 들어, 첫 고객 달 동안의 행동을 확인하여 처음 6개월 이내에 고객 이탈 여부를 예측할 수 있습니다. 이제 시간 프레임을 통합하는 방법으로 고객 이탈을 정의하는 정확한 방법이 있습니다. 다음과 같은 데이터 집합을 집계할 수 있습니다.
여기에서 각 행은 고객을 나타내지만 지금은 최소 6개월 동안 지속된 고객만 포함하여 기록합니다. 각각의 고객에 대해 첫 달 동안의 구매 수와 총 지출은 6개월 후 이탈 여부를 예측하는 데 사용됩니다. 이 질문의 목적은 처음 6개월 후에 이탈했는지 여부와 관련이 없습니다. 대상 열은 처음 6개월 이내에 구독을 취소했는지 여부만 알려 줍니다.
이제 행을 서로 비교할 수 있는 교육 데이터 집합이 있습니다. 이 데이터 집합에서 모델을 교육하면 최소 한 달 동안 구독한 신규 고객을 선택하고 첫 달 동안의 행동과 교육시킨 모델을 사용하여 처음 6개월 동안 이탈할지 여부를 예측할 수 있습니다.
다중 클래스 분류 예: 붓꽃 꽃잎
이 예에는 큰 붓꽃 샘플에 대한 데이터가 있습니다. 각 꽃에 대해 꽃잎과 꽃받침의 길이와 너비, 그리고 그것이 속한 붓꽃의 종류를 기록했습니다. 앞으로 새로운 붓꽃을 만났을 때 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비를 기준으로 어떤 종류의 붓꽃인지 예측할 수 있었으면 합니다.
수집된 데이터를 기록 데이터에 함수를 맞추는 기계 학습 알고리즘에 공급할 수 있습니다. 이러한 함수는 다른 네 가지 변수에 대한 값을 기반으로 예측된 종 유형을 출력합니다. 출력은 불연속 범주 집합의 범주입니다.
미래에 예측하는 데이터가 알고리즘을 교육한 데이터와 통계적으로 유사할 것이라는 가정하에 작업하고 있습니다. 교육 데이터 집합에 세 가지 다른 종의 붓꽃만 있는 경우 이 교육된 알고리즘만 사용하여 해당 종의 꽃을 예측할 수 있습니다. 기계 학습 알고리즘이 학습 데이터 집합에서 인식하도록 학습되지 않은 패턴에 대해 예측할 것이라고 기대할 수 없습니다.