기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

교육을 위해 데이터 집합 준비하기

기계 학습 질문에 답하기 위해 데이터 집합을 교육합니다. 교육 데이터 집합에는 각 기능에 대한 열과 대상이 포함된 열이 포함됩니다. 기계 학습 알고리즘은 이러한 데이터 행에서 일반적인 패턴을 학습하여 대상을 예측할 수 있는 모델을 생성합니다.

데이터 집합 기계 학습을 준비하려면 데이터를 이해하고 필요한 데이터 포인트를 수집해야 합니다. 일부 데이터를 변환하고 사용 사례와 관련이 없는 데이터를 제거해야 할 수도 있습니다.

어떤 데이터를 수집해야 합니까?

기계 학습 질문을 정확하게 정의하고 해당 질문에 접근하기 위해 정확히 무엇을 집계해야 하는지 결정합니다.

  • 어떤 고객이 이탈할지 예측하려면 각 행이 고객을 나타내고, 각 기능 열이 해당 고객을 설명하는 기능을 나타내고, 대상 열이 해당 고객이 특정 기간에 이탈했는지 여부가 되는 데이터 집합을 집계해야 합니다.

  • 지정된 월 및 지역의 판매를 예측하려면 각 행이 특정 지역의 지정된 월을 나타내고, 각 기능 열이 해당 지역에서 해당 월의 비즈니스를 설명하는 기능을 나타내고, 대상 열이 해당 월의 해당 지역에 대한 판매 매출이 되는 데이터 집합을 집계해야 합니다.

대상에 영향을 줄 수 있는 항목을 파악하고 해당 데이터를 수집할 수 있는지 확인하십시오. 예측 알고리즘은 찾을 수 있는 패턴만 식별할 수 있다는 점을 기억하십시오. 추가 정보를 추출하기 위해 추가 기능을 수집하거나 만들어야 합니까?

또한 정확하게 예측하기 전에 누적해야 하는 데이터의 양을 확인해야 합니다. 이벤트가 대표하기까지 얼마나 걸립니까? 다음 예를 고려합니다.

  • 고객이 60일 동안 구성원이어야만 90일까지 떠날지 예측할 수 있습니다.

  • 보험 클레임 비용은 몇 개월 동안 알 수 없으므로 6개월 미만의 클레임은 제외할 수 있습니다.

시간 변이 데이터와 비시간 변이 데이터를 구별합니다. 시간 변형 데이터를 사용하면 적절하게 집계하기 위해 데이터 타임스탬프가 지정됩니까?

예측 시점에 데이터를 사용할 수 있습니까?

교육 데이터 집합에 포함하는 모든 기능을 향후 예측에도 사용할 수 있는지 확인합니다. 기록 데이터에 사용할 수 있는 기능에 대해 모델을 교육하는 것은 일반적인 실수이지만 미래에 예측할 때 사용할 수 없는 기능입니다. 새 데이터에 대한 예측을 수행할 때 기계 학습 알고리즘에는 교육 데이터 집합에서 사용할 수 있는 모든 기능에 대한 값이 있어야 합니다.

데이터가 많을수록 좋은가요?

샘플 크기

많은 양의 데이터는 더 신뢰할 수 있는 모델을 생성하는 경향이 있습니다. 새로운 관찰이든 기록 관찰이든 추가 관련 데이터 포인트가 도움이 될 것입니다.

기능 수

대상 결과와의 관련성에 상관없이 가능한 모든 변수를 모델에 포함하고 싶을 수 있습니다. 일반적으로 단순할수록 좋습니다. 일반적으로 모델에서 더 적은 수의 기능을 사용하는 것이 좋습니다.

많은 기능이 있는 경우 발견하려는 진정한 기본 관계를 잠재적으로 은폐할 위험이 더 커질 수 있습니다. 예측 모델은 모든 기능을 사용하여 모델을 교육하는 데 사용되는 데이터에 대해 잘 수행되는 일련의 복잡한 규칙을 제시할 수 있습니다. 그러나 예측 대상은 실제로 하나 또는 두 개의 기능에 의해서만 영향을 가져올 수 있습니다. 모델은 교육에 사용된 것 이외의 데이터로 일반화하는 데 적합하지 않을 수 있으며, 이는 새 데이터에 적용될 때 예측 성능이 저하될 수 있습니다.

과적합

과적합은 모델이 지나치게 복잡하여 결과적으로 새 데이터를 예측하는 데 신뢰할 수 없음을 의미합니다. 과적합은 사용할 수 있는 데이터 포인트 수에 비해 너무 많은 기능이 있을 때 발생하는 경향이 있습니다. 예를 들어, 데이터 집합에 50개의 데이터 행과 100개의 기능 열만 있을 수 있습니다.

교육 데이터가 관련이 있습니까?

기계 학습 알고리즘은 입력한 데이터에서 패턴을 찾고 해당 패턴을 사용하여 향후 데이터를 예측합니다. 새 데이터에 대한 예측을 수행할 때 교육 데이터와 유사하다고 가정합니다. 이러한 이유로 교육 데이터 집합이 예측할 데이터와 통계적으로 유사해야 합니다.

시장이나 비즈니스가 교육 데이터 집합이 설명하는 것과 크게 변경된 경우 부정확한 예측으로 이어질 오래된 데이터 집합을 사용하고 있을 수 있습니다. 새 교육 데이터 집합을 만들고 변경이 발생한 후에 수집된 데이터만 사용해야 할 수 있습니다.

기계 학습 이해의 판매 예측에 대한 예를 고려합니다. 텔레비전, 라디오, 신문에 대한 광고 지출과 역사적인 비즈니스 분기의 판매 매출을 나타내는 알고리즘에 데이터를 입력했다고 가정해 보겠습니다. 그러나 자료는 1980년대에 수집되었습니다. 이제 우리는 더 이상 라디오에서 해당 제품을 광고하지 않으며 거의 전적으로 온라인에서 제품을 광고합니다. 교육 데이터가 현재 비즈니스를 대표하지 않기 때문에 우리의 교육된 알고리즘은 현재 비즈니스 분기의 판매 예측에서 제대로 수행되지 않습니다.

데이터 탐색

비즈니스 지식을 사용하여 데이터를 이해하고 유효성 검사합니다. 데이터가 가정과 일치하지 않는 경우 데이터 문제를 의미하거나 가정이 잘못되었음을 의미할 수 있습니까?

신뢰할 수 없는 기능 제거

다음과 같은 데이터 집합에서 열을 제외하는 것이 좋습니다.

  • 하나의 값이 많이 집중되어 있습니다(낮은 집합 크기). 예를 들어, 값의 90%가 "빨간색"인 "빨간색", "녹색", "파란색" 값이 있는 열입니다.

  • 값은 매우 고유합니다(높은 집합 크기).

  • 대부분의 값은 null입니다.

주소 상관 기능

동일하거나 매우 유사한 정보를 제공하는 높은 상관 기능과 같은 중복 기능을 제거합니다. 데이터에서 동일한 동작을 캡처하는 것으로 보이는 그룹에서 단일 기능을 선택하는 것이 좋습니다. 다른 기능을 구동하는 하나의 기능이 있는지 확인합니다.

null 값 바꾸기

데이터를 탐색하여 대상 또는 주요 기능과 같은 주요 데이터 포인트에 누락된 값이 있는지 확인합니다. 스파스 열의 값을 사용하려면 null 값을 "기타" 또는 "알 수 없음"으로 바꿀 수 있습니다. 또는 데이터 수집을 재평가해야 할 수도 있습니다.

대상 범위

데이터 분포를 살펴보십시오. 대상 데이터의 분포가 샘플 크기에 비해 너무 분산된 경우 데이터에서 패턴을 찾기 어려울 수 있습니다.

데이터 값의 범위는 어떻게 됩니까? 범위 밖의 데이터 값을 예측하는 데는 몇 가지 문제가 있습니다. 추정 및 보간에서 더 읽어보십시오.

분포에 이상이 있습니까? 데이터에 왜곡, 꼬리 및 다중 모달 모양이 있는 경우, 추가 데이터 변환 또는 추가 기능 엔지니어링이 필요할 수 있습니다. 소량 범주를 그룹화하고 숫자 기능에서 꼬리를 둥글게 하거나 제거합니다.

이상값 제거

기능 열에서 이상값이 있는 이상값을 제거하는 것이 좋습니다. 이상값은 데이터의 일반적인 패턴을 식별하는 알고리즘의 기능을 방해할 수 있습니다. 대상 열에서 더 좁은 범위의 데이터 하위 집합을 살펴보는 것이 더 나을 수 있습니다.

데이터 그룹화

데이터를 다른 데이터 집합으로 분할하고 이를 사용하여 별도의 모델을 교육함으로써 결과를 개선할 수 있습니다. 하나 이상의 기능을 기반으로 데이터 그룹화를 수행합니다.

데이터 유출

데이터 유출은 기계 학습 알고리즘을 학습하는 데 사용되는 데이터에 예측하려는 정보가 포함되어 있음을 의미합니다.

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!