세부 모델 분석 수행

실험의 분석 탭에서는 예측 성능에 대한 심층 분석을 위해 단일 모델에 집중할 수 있습니다. 포함된 분석을 사용하여 자세한 분석이 수행됩니다.

교육이 끝나면 모델을 선택합니다. 다음으로, 분석 탭을 열어 모델 예측의 정확도, 데이터 추세에 영향을 미치는 요소 및 기타 정보에 대한 자세한 정보를 확인합니다. 분석 탭에 표시되는 데이터는 모델이 홀드아웃 데이터에 대해 생성하는 예측을 기반으로 합니다.

도구 모음의 드롭다운 메뉴를 사용하면 모델 간에 쉽게 전환할 수 있습니다. 드롭다운 메뉴는 모델 탭에서 적용한 필터에 반응하여 배포 후보인 주요 모델에 집중할 수 있습니다.

예측 정확도와 기능 중요성을 보여 주는 ML 실험의 '분석' 탭 — ML 실험의 분석 탭

세부 모델 분석의 주요 이점은 다음과 같습니다.

필요에 따라 시각화 데이터를 구체화하고 사용자 지정할 수 있는 대화형 인터페이스입니다.
기능 중요성 통계와 함께 홀드아웃 데이터에 대한 예측을 자세히 살펴보십시오.

분석 작업흐름

모델 교육 결과를 완전히 이해하려면 빠른 분석을 완료한 다음 비교 및 분석 탭에서 추가 옵션을 진행하는 것이 좋습니다. 빠른 분석은 지능형 최적화 프로세스 중에 어떤 기능이 삭제되었는지 보여 주는 모델 교육 요약을 제공하고 빠른 소비를 위해 자동 생성된 다양한 시각화도 제공합니다. 비교 및 분석 탭에는 모델 교육 요약이 표시되지 않지만 모델 메트릭을 더 자세히 분석하여 모델 품질을 더 잘 이해할 수 있습니다.

다른 분석 옵션에 대한 자세한 내용은 다음을 참조하십시오.

개념 이해

모델 평가를 시작하기 전에 모델 분석의 기본 개념을 이해하는 것이 도움이 될 수 있습니다. 자세한 내용은 모델 검토 개념 이해을 참조하십시오.

최적화 설정이 분석에 미치는 영향

분류 및 회귀 실험의 경우, 지능형 모델 최적화를 사용했는지 여부에 따라 분석 환경이 약간 다를 수 있습니다. 새로운 분류 및 회귀 실험에서는 지능형 모델 최적화가 기본적으로 활성화됩니다.

지능형 최적화로 교육된 모델 분석

기본적으로 새로운 분류 및 회귀 실험은 지능형 모델 최적화를 통해 실행됩니다.

지능형 모델 최적화는 시계열 실험에 적용할 수 없습니다.

지능형 모델 최적화는 추가 구체화 없이 배포할 준비가 된 모델을 이상적으로 만드는 보다 강력한 교육 프로세스를 제공합니다. 이러한 모델을 프로덕션 사용 사례에 배포하는 성능은 관련 기능과 데이터가 포함된 고품질 데이터 집합으로 교육하는 데 달려 있습니다.

버전이 지능형 모델 최적화로 교육된 경우 다음을 고려합니다.

버전의 각 모델은 알고리즘이 데이터를 분석한 방식에 따라 서로 다른 기능을 선택할 수 있습니다.
특정 분석을 시작하기 전에 모델 탭에서 해당 모델에 대한 모델 교육 요약을 읽어보십시오. 모델 교육 요약은 Qlik 프로젝트이 기능 선택을 반복하고 고급 변환을 적용하여 모델을 자동으로 최적화하는 방법에 대한 요약을 보여 줍니다.

지능형 모델 최적화에 대한 자세한 내용은 지능형 모델 최적화를 참조하십시오.

지능형 최적화 없이 교육된 모델 분석

또는 교육 버전에 대해 지능형 모델 최적화를 해제했을 수도 있습니다. 교육 프로세스에 대한 더 많은 제어가 필요한 경우 모델을 수동으로 최적화하는 것이 도움이 될 수 있습니다.

수동 최적화를 사용한 경우 해당 버전의 모든 모델에는 동일한 기능 선택이 포함되므로 모델 교육 요약이 필요하지 않습니다.

구성 검사

전처리 과정에서 기능이 학습에 사용되지 않도록 제외되었을 수 있습니다. 이는 일반적으로 버전을 실행하기 전보다 학습이 진행됨에 따라 데이터에 대해 더 많은 정보가 알려지기 때문에 발생합니다.

모델 학습 요약(지능형 최적화가 적용된 경우에만 표시됨)을 검토한 후, 이러한 다른 변경 사항을 확인해야 하는 경우 실험 구성을 자세히 살펴볼 수 있습니다.

다음과 같이 하십시오.

실험에서 학습 데이터 탭으로 전환합니다.
지정된 화면이 스키마 보기 상태인지 확인합니다.
도구 모음의 드롭다운 메뉴를 사용하여 버전에서 모델을 선택합니다.
모델 스키마를 분석합니다. 특정 기능이 누락되었거나 다른 기능 유형으로 변환되었는지 확인하려면 인사이트 및 기능 유형 열에 집중하는 것이 좋습니다.

예를 들어, 처음에 자유 텍스트 가능성 있음으로 표시된 기능이 버전을 실행한 후 제외되었을 수 있습니다.

각 인사이트의 의미에 대한 자세한 내용은 데이터 세트 인사이트 해석을 참조하십시오.

기본 지능형 최적화 옵션으로 버전을 실행한 경우, 자동 미세 조정으로 인해 버전의 각 모델마다 기능 선택이 다를 수 있습니다. 지능형 최적화 없이 버전을 실행한 경우, 버전의 모든 모델에 대해 기능 선택이 동일합니다. 지능형 모델 최적화에 대한 자세한 내용은 지능형 모델 최적화을 참조하십시오.

이 구성에서 찾은 내용을 바탕으로 기능 데이터를 개선하기 위해 데이터 세트 준비 단계로 돌아가야 할 수도 있습니다.

세부 분석 시작

특정 모델에 대한 자세한 분석을 시작할 수 있는 방법에는 여러 가지가 있습니다.

데이터 또는 모델 탭에서 모델을 선택하고 모델 옆의 을 클릭한 후 분석을 클릭합니다.
모델이 선택되면 분석 탭을 클릭합니다.
모델에 대한 세부 분석을 이미 보고 있는 경우 도구 모음의 드롭다운 메뉴를 사용하여 다른 모델을 선택합니다. 모델 탭에서 적용한 필터에 대한 모델이 표시됩니다. 최상위 모델 권장은 (전반적으로 가장 좋음), (가장 정확함), (가장 빠름) 아이콘으로 강조 표시됩니다. 원하는 경우 모델 탭에서 모델을 필터링하여 이 드롭다운 메뉴에 나타나는 자세한 모델 목록을 구체화할 수 있습니다.

분석 콘텐츠는 실험 대상에 정의된 모델 유형에 따라 다릅니다. 다양한 모델 유형에 대해 다양한 메트릭을 사용할 수 있습니다.

100% 미만의 샘플링 비율로 교육된 모델은 분석 탭에서 열 수 없습니다.

포함된 분석 탐색

포함된 분석 기능이 포함된 모델을 분석하려면 대화형 인터페이스를 사용합니다.

시트 간 전환

시트 패널을 사용하면 분석 시트 간에 전환할 수 있습니다. 각 시트에는 특정 초점이 있습니다. 필요에 따라 패널을 확장하고 축소할 수 있습니다.

선택하기

데이터를 구체화하려면 선택을 사용합니다. 기능을 선택하고 특정 값과 범위로 드릴다운할 수 있습니다. 이를 통해 필요한 경우 자세히 살펴볼 수 있습니다. 어떤 경우에는 시각화를 표시하기 위해 하나 이상의 항목을 선택해야 할 수도 있습니다. 시각화 및 필터 창에서 데이터 값을 클릭하여 선택합니다.

다음을 통해 선택 항목을 작업할 수 있습니다.

콘텐츠를 클릭하고, 범위를 정의하고, 그려서 값을 선택합니다.
차트 내에서 검색하여 값을 선택합니다.
포함된 분석 상단의 도구 모음에서 선택한 필드를 클릭합니다. 이를 통해 기존 선택 항목을 검색하고 잠그거나 잠금 해제하고 추가로 수정할 수 있습니다.
포함된 분석 상단의 도구 모음에서 을 클릭하여 선택 항목을 제거합니다. 아이콘을 클릭하여 모든 선택을 해제합니다.
및 을 클릭하여 선택의 이전 및 다음 단계로 이동합니다.

분석에는 데이터를 더 쉽게 구체화할 수 있는 필터 창이 포함되어 있습니다. 필터 창에서 값에 대한 확인란을 클릭하여 선택합니다.필터 창에 여러 목록 상자가 포함된 경우 목록 상자를 클릭하여 확장한 다음 원하는 항목을 선택합니다.

카탈로그로 데이터 내보내기

세부 분석에 사용된 데이터를 카탈로그로 내보낼 수 있습니다. 데이터는 Qlik Cloud Analytics의 공간으로 내보내집니다. 내보낸 데이터를 사용하여 사용자 지정 분석을 위한 자신만의 Qlik Sense 응용 프로그램을 만들 수 있습니다.

자세한 내용은 모델 교육 데이터 내보내기을 참조하십시오.

예측 정확도 분석

예측의 정확성을 해석하는 방법은 교육 데이터 집합의 구조와 기계 학습 사용 사례에 따라 달라집니다. 또한 이러한 시각화의 해석은 모델 유형에 따라 다릅니다. 아래 섹션에서 각 모델 유형에 대한 자세한 정보를 제공합니다.

모델 개요 시트의 예측 섹션은 모델이 올바르게 예측한 수와 잘못 예측한 수에 대한 집계된 개요를 제공합니다.

예측 및 기능 분포 시트를 사용하여 특정 기능에 초점을 맞춰 예측 부정확성의 기능을 분석합니다. 시트 왼쪽의 필터 창에서 단일 기능을 선택합니다. 이 시트는 모든 모델 유형에 대해 예측 부정확성과 실제 값 분포를 나란히 표시하여 데이터를 올바른 시각으로 보는 데 도움을 줍니다.

이진 분류 모델

전체 모델 분석

모델 개요 시트의 예측 섹션에는 confusion matrix에 정의된 원시 데이터가 표시됩니다. 여기에는 true 및 가양성, true 및 가음성이 포함됩니다. 이러한 값은 정적 합계로 표시되므로 선택 항목에 반응하지 않습니다. 이러한 값의 의미에 대해 자세히 알아보려면 혼동 행렬를 참조하십시오.

confusion matrix 세부 정보와 올바른 예측과 잘못된 예측을 보여 주는 예측 개요 섹션 — 이진 분류 모델에 대한 분석 탭에서 예측 성능의 집계된 개요 보기

데이터의 하위 집합 분석

예측 및 기능 분포 시트에서 잘못된 예측 차트는 기능의 각 가능한 기능 값 또는 범위를 나타내는 막대를 표시하며, 막대의 높이는 모델이 내린 잘못된 예측의 수에 해당합니다. 막대의 각 색은 각 실제 대상 값에 해당합니다. 단일 기능과 다른 원하는 필드의 값을 선택하여 다양한 데이터 하위 집합에 대한 예측 정확도가 어떻게 변하는지 확인합니다.

선택된 단일 기능과 두 개의 차트가 있는 시트(하나는 기능 값 전체의 예측 부정확성을 나타내고 다른 하나는 실제 기능 값의 분포를 나타냄) — 선택한 기능의 값 분포와 함께 예측 부정확성을 분석합니다. 이 이미지는 이진 분류 모델에 대한 분석 보기를 보여 줍니다.

다중클래스 분류 모델

전체 모델 분석

모델 개요 시트의 예측 섹션에는 실제 대상 값 각각을 나타내는 막대가 있는 막대형 차트가 표시됩니다. 막대의 각 색 높이는 모델이 특정 클래스를 예측하는 횟수에 해당합니다. 이 차트 외에도 예측 섹션에는 정확한 예측과 잘못된 예측에 대한 분할도 표시됩니다.

예측 값과 실제 값, 올바른 예측과 잘못된 예측을 보여 주는 예측 개요 섹션 — 다중 클래스 분류 모델에 대한 분석 탭에서 예측 성능의 집계된 개요 보기

데이터의 하위 집합 분석

예측 및 기능 분포 시트에서 잘못된 예측 차트는 기능의 각 가능한 값 또는 범위를 나타내는 막대를 표시하며, 막대의 높이는 모델이 내린 잘못된 예측의 수에 해당합니다. 막대의 각 색은 각 실제 대상 값에 해당합니다.

회귀 모델

회귀 모델의 경우 모델 및 기능 수준 모두에서 다음 정보를 볼 수 있습니다.

대상에 대한 평균 예측값
실제 대상값
90번째 및 10번째 백분위수 예측 범위. 이 선은 모델이 값을 예측할 것으로 예측할 수 있는 범위를 보여 줍니다. 90번째 백분위수 선은 항상 더 큰 값을 갖는 선입니다.
평균 절대 오차(MAE)

모델 전체 및 기능별 시각화의 경우 기능의 실제 값 분포와 함께 메트릭을 분석합니다.

시계열 모델

시계열 모델의 경우 다음을 분석할 수 있습니다.

시계열 예측을 위한 주요 모델 메트릭
모델 구성에 대한 세부 정보
다양한 시간 창(실제 및 예측 모두)에 걸친 예측 값 비교
예측 창의 예측 오차

모델 메트릭은 시트 상단에서 볼 수 있습니다. 각 메트릭에 대한 자세한 내용은 시계열 모델 채점 매기기을 참조하십시오.

시트의 왼쪽에서는 실험 버전, 알고리즘, 기능 등 모델에 대한 중요한 세부 정보를 볼 수 있습니다.

왼쪽의 주요 꺾은선형 차트를 사용하면 적용 창, 실제 데이터 및 예측 창에 걸쳐 예측 값을 비교할 수 있습니다. 차트 하단에서 예측에 대한 대체(더 빠른) 시작 날짜를 선택하여 가정 시나리오를 검토하고 패턴을 더 깊이 이해할 수 있습니다. 그룹을 대상으로 실험하는 경우, 모델 세부 정보 아래에 있는 그룹 필터 창을 사용하여 특정 그룹화 값을 선택하고, 특정 데이터 집단에 대한 분석에 집중합니다.

오른쪽의 주요 꺾은선형 차트는 예측 창의 예측 오차를 보여 줍니다. 이 차트를 사용하면 모델에 대한 평균 상대 오차, 10분의 1 백분위수 오차, 90분의 1 백분위수 오차를 비교할 수 있습니다.

시계열 예측 모델을 자세히 분석하기 위한 시트. — 포함된 분석을 사용하여 시계열 모델을 분석합니다. 이 특정 모델은 다변량 모델입니다. 즉, 그룹의 데이터 하위 집합을 선택하여 세부적인 분석을 수행할 수 있습니다.

기능 중요성 분석

시계열 모델에는 적용할 수 없습니다.

개요에 액세스

기능 중요성을 분석하면 각 기능이 다른 기능에 비해 예측에 어떤 영향을 미치는지 알 수 있습니다.

모델 개요 시트의 기능 영향 섹션은 평균 절대 SHAP 값에 대한 집계된 개요를 제공합니다. 이 차트는 모델 탭의 SHAP 중요성 차트와 동일하게 보입니다. 선택한 항목에 따라 차트가 업데이트됩니다. 단일 기능을 선택하면 특정 값과 범위를 드릴다운하여 더 자세히 알아볼 수 있습니다.

기능의 특정 값 범위에 대해 집계된 SHAP 값을 비교하는 기능 중요성 분석 차트 — 선택한 단일 기능을 사용한 SHAP 값의 집계 비교

SHAP 분포 분석

또한 기능별 영향 시트를 열어 각 기능 값 또는 범위에 대한 SHAP 값을 보다 포괄적으로 볼 수 있습니다. SHAP 값은 절대값이 아닌 방향으로 표시됩니다.

이 분석을 통해 특정 집단의 패턴을 식별하고 데이터에서 이상값을 찾을 수 있습니다. 보다 세부적인 분석을 위해 데이터를 필터링하려면 차트에서 값이나 범위를 선택합니다.

차트의 모양과 유형은 선택한 기능 유형에 따라 달라집니다.

범주형 기능

범주형 기능은 상자 그림으로 시각화됩니다. 상자 그림을 통해 각 범주형 값에 대한 SHAP 값의 분포를 확인할 수 있습니다. 상자 그림의 구성은 다음과 같습니다.

평균 SHAP 값을 표시합니다.
표준(Tukey) 구성이 사용됩니다.
- 값에 대한 상자는 첫 번째 사분위수(하한값)와 세 번째 사분위수(상한값)로 정의됩니다.
- 중앙값은 상자 내부의 가로선입니다.
상부 및 하부 수염은 1.5 사분위수 범위의 상한 및 하한에 해당합니다.
이상값은 표시되지 않습니다.

선택한 범주형 기능에 대한 상자 그림 차트로 SHAP 값 분포를 분석할 수 있습니다. — 범주형 기능에 대한 SHAP 값 분포 분석을 위한 상자 그림

숫자 기능

숫자 기능의 경우 SHAP 값은 스캐터 차트로 시각화됩니다. 스캐터 차트의 구성은 다음과 같습니다.

선택한 샘플의 SHAP 값이 표시됩니다.
스캐터 차트의 모양과 느낌은 표시할 데이터 포인트 수에 따라 달라집니다. 데이터 포인트 수가 적은 차트의 경우 개별 거품이 표시됩니다.데이터 포인트 수가 많은 차트의 경우 거품이 블록으로 수집되며 각 블록 내에 데이터 포인트 수를 나타내는 색이 지정됩니다.

스캐터 차트에서 더 자세히 조사할 수 있도록 특정 값이나 범위를 선택합니다.

선택된 숫자 기능에 대한 스캐터 차트로 SHAP 값 분포를 분석할 수 있습니다. — 숫자 기능에 대한 SHAP 값 분포 분석을 위한 스캐터 차트

편향 감지 결과 분석

버전의 기능 중 편향 감지를 위해 활성화된 것이 있다면, 포함된 각 기능에 대한 특정 지표의 세부적인 분석을 위해 편향 시트를 볼 수 있습니다.

자세한 내용은 편향 결과의 상세 분석을 참조하십시오.

제한 사항

다음 문자 중 하나라도 포함된 데이터 집합 열 이름은 분석 탭에 표시되지 않습니다.

[
]

분석 탭에서 이러한 항목을 보려면 교육 전에 열 이름에서 이러한 문자를 제거해야 합니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.