기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

모델 버전 검토 및 구체화

모델 교육의 첫 번째 버전이 완료되면 결과 모델 메트릭을 분석하고 필요한 결과를 얻을 때까지 새 버전의 실험을 구성합니다.

실험 버전을 실행하면 결과 모델 메트릭을 분석할 수 있는 모델 보기로 이동됩니다. 언제든지 스키마 또는 데이터 보기로 전환할 수 있습니다. 모델 보기로 돌아가려면 모델 보기 개체 아이콘을 클릭합니다.

모델 메트릭 테이블에 모든 메트릭이 채워지고 최상위 모델 옆에 트로피 트로피 아이콘이 나타나면 첫 번째 버전의 교육이 완료된 것입니다.

정보 메모AutoML은 모델 교육 프로세스를 지속적으로 개선하고 있습니다. 따라서 이 연습을 완료하면 이 페이지의 이미지에 표시된 모델 메트릭 및 기타 세부 정보가 사용자의 것과 동일하지 않다는 것을 알 수 있습니다.

모델 분석

모델 보기에서 최상위 알고리즘이 트로피 트로피 아이콘으로 점수가 매겨진 것을 볼 수 있습니다. 이는 F1 점수 기준으로 가장 성능이 좋은 모델이라는 뜻입니다.

최고 성능의 v1 모델을 보여 주는 모델 보기.

모델 메트릭을 보여 주는 모델 보기.
  1. 테이블 오른쪽 위에서 열 선택기 열 버튼을 클릭합니다. 여기에서 문제에 대해 사용할 수 있는 모든 메트릭을 보고 필요에 따라 메트릭을 추가하거나 제거할 수 있습니다. 표에 표시할 메트릭을 선택하거나 기본 메트릭을 그대로 둡니다.

    열 선택기를 사용하여 모델 메트릭 테이블에서 메트릭을 추가하거나 제거합니다.

    모델 메트릭 테이블의 열 선택 도구
  2. 모델 메트릭 테이블에서 알고리즘 필터 드롭다운을 클릭하고 최고 성능 모델에 해당하는 알고리즘을 선택합니다.

  3. 교육 데이터 메트릭 표시를 켭니다.

    이제 교차 유효성 검사 교육의 메트릭의 유효성을 검사하고 이를 홀드아웃 메트릭과 비교할 수 있습니다. 각 홀드아웃 메트릭 열에는 교육 데이터의 해당 메트릭에 해당하는 'train' 열이 있습니다.

    교육 데이터 메트릭이 표시된 모델 메트릭 테이블

    홀드아웃 메트릭 아래에 표시된 교육 메트릭.
  4. 필터 지우기를 클릭하고 교육 데이터 메트릭 표시 설정/해제를 다시 끕니다.

  5. F1 열 헤더를 클릭하여 가장 높은 성능에서 가장 낮은 성능 순으로 모델을 정렬합니다. 성능이 낮은 알고리즘을 제외하거나 다음 교육 반복에서 더 빠른 결과를 가져오기 위해 가장 좋은 알고리즘에만 집중하도록 선택할 수 있습니다. 이후 섹션에서 v3을 구성할 때 이 문제를 다루겠습니다.

  6. 메트릭 테이블 아래로 스크롤하여 선택한 모델에 대한 시각화를 확인합니다.

    모델 메트릭 테이블 및 시각화.

    모델 메트릭 테이블 및 시각화.
  7. 실험 구성 창 또는 구성 보기를 클릭하여 실험 구성 창을 펼칩니다.

  8. 다음 실험 버전의 초안을 만들려면 새 버전을 클릭합니다.

  9. permutation importance 차트와 실험 구성 창의 기능 목록에서 이 모델의 첫 번째 반복이 DaysSinceLastService 기능과 비교할 때 다른 모든 기능은 거의 중요하지 않습니다.

    DaysSinceLastService 기능의 영향을 나타내는 실험 구성 창의 permutation importance 메트릭

    실험 구성 창의 기능 목록에서 'DaysSinceLastService' 기능이 실험에 지나치게 큰 영향을 미치는 것으로 표시됩니다.

    이러한 차이와 모델의 극도로 높은 성능은 무언가 잘못되었다는 신호로 보아야 합니다. 이 경우 구독을 취소한 고객에 대한 고객의 마지막 서비스 티켓 이후 일 수 계산을 중지하기 위해 데이터 수집 중에 정의된 논리가 없었습니다. 결과적으로 모델은 마지막 서비스 티켓 이후 많은 일 수를 Churned 필드의 yes 값과 연결하는 방법을 학습했습니다.

    이는 데이터 유출의 예입니다. 실제 시나리오에서 모델은 예측이 이루어질 때까지만 정보에 액세스할 수 있고 이 필드에 포함된 일 수는 해당 측정 시점을 지나서 수집되었습니다. 데이터 유출에 대한 자세한 내용은 데이터 유출을 참조하십시오.

    결과 모델을 왜곡하기 때문에 실험 구성에서 "유출" 기능인 DaysSinceLastService을 제거해야 합니다. 실제 사용 사례에서는 모델 만들기 전에 데이터 품질과 논리를 철저히 조사하여 결과 모델이 제대로 교육되었는지 확인해야 합니다.

    v2를 구성할 때 다음 섹션에서 이 문제를 해결하겠습니다.

버전 2 구성 및 실행

이 데이터 유출 문제가 해결된 후 대부분의 모델 교육이 변경되므로 추가 구체화을 완료하기 전에 새 버전을 구성해 보겠습니다.

  1. 이전 단계에서 v2 구성을 위해 실험 구성 창이 이미 열려 있습니다.

  2. 실험 구성 창의 기능에서 DaysSinceLastService 확인란의 선택을 해제합니다.

  3. v2 실행을 클릭합니다.

버전 3 구성 및 실행

두 번째 버전의 실험 실행이 완료되면 메트릭 표에서 최고 성능의 v2 모델 옆에 있는 확인란(트로피 트로피 아이콘으로 표시)을 클릭합니다. 이렇게 하면 해당 모델에 대한 메트릭으로 페이지가 새로 고쳐집니다.

모델 메트릭 테이블 위에서 버전 필터 드롭다운을 클릭하고 2를 선택합니다. 이를 통해 v2 모델 메트릭에만 집중할 수 있습니다.

데이터 유출 문제를 해결한 이후 중요한 기능 목록이 크게 변경되었음을 알 수 있습니다. 최고 성능 모델은 v1의 최고 성능 모델과 다른 알고리즘을 사용할 수도 있습니다.

F1 점수를 기준으로 정렬된 v2의 최고 성능 모델을 보여 주는 모델 메트릭 테이블

v2 교육 후 'v2' 버전 필터가 적용된 모델 메트릭 테이블입니다.
  1. permutation importance 차트를 확인합니다. 다른 기능보다 모델에 훨씬 적은 영향을 미치는 기능이 있을 수 있습니다. 이 사용 사례에서는 거의 가치가 없으며 통계적 노이즈로 볼 수 있습니다. 이러한 기능 중 일부를 제거하여 모델 점수가 향상되는지 확인할 수 있습니다.

    최고 성능의 v2 모델에 대한 permutation importance 차트

    유출 기능 DaysSinceLastService를 제거한 후의 permutation importance 차트입니다.
  2. 실험 구성 창 또는 구성 보기를 클릭하여 실험 구성 창을 펼칩니다.

  3. 다음 실험 버전의 초안을 만들려면 새 버전을 클릭합니다.

  4. 실험 구성 창의 기능에서 모델에 거의 또는 전혀 영향을 미치지 않는 하나 이상의 기능에 대한 확인란을 선택 해제합니다.

  5. 모델 메트릭 테이블을 살펴보십시오. 다음 교육 반복에서 더 빠른 결과를 가져오기 위해 성능이 낮은 일부 알고리즘을 제외하거나 가장 좋은 알고리즘에만 집중하도록 선택할 수 있습니다.

  6. 실험 구성 창의 알고리즘 아래에서 성능이 낮은 몇 가지 알고리즘에 대한 확인란을 선택적으로 선택 해제합니다.

  7. v3 실행을 클릭합니다.

실험 버전 비교

모델 메트릭 테이블에서 필터 지우기를 클릭합니다.

v3이 실행된 후 최고 성능의 v3 모델 옆에 있는 확인란을 클릭하여 해당 메트릭을 확인합니다.

추가 모델 필터를 클릭하고 최고 성과자 필터를 선택합니다. 실험의 각 반복에서 최고 실적에 대한 메트릭을 볼 수 있습니다.

교육의 첫 번째 버전은 가장 높은 점수를 받았지만 이러한 메트릭은 데이터 유출 문제로 인해 매우 과장되고 비현실적인 성능 예측 변수였습니다. v3에서는 최고 성능 모델의 F1 점수가 최고 성능 v2 모델보다 증가했습니다.

최고 성능 모델

v3의 최고 성과자 모델을 표시하기 위해 '최고 성과자' 필터가 적용된 모델 메트릭 테이블입니다.

실제 시나리오에서는 모델을 배포하기 전에 이러한 구체화 단계를 필요한 만큼 반복하여 특정 사용 사례에 가장 적합한 모델을 갖도록 하는 것이 중요합니다.

이 자습서에서 모델 배포에 대한 다음 섹션으로 이동합니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!