모델 알고리즘 이해

알고리즘은 모델을 생성하는 수학 레시피입니다. 입력(데이터 집합)을 받고 출력(모델)을 생성합니다. 알고리즘마다 강점과 약점이 다릅니다.

대상을 선택하면 Qlik 프로젝트이 해당 사용 사례에 가장 적합한 알고리즘을 자동으로 선택합니다. 대상은 사용할 알고리즘의 종류를 확인합니다.

이진 및 다중 클래스 분류 문제에서 가장 잘 작동하는 알고리즘은 다음과 같은 경우에 사용됩니다.

대상에는 "고객이 구독을 취소하시겠습니까?"(예 또는 아니요)와 같이 두 개의 고유한 값만 있습니다.
대상은 3개에서 10개 사이의 고유한 값이 있는 문자열 값입니다. 예를 들어, "빨간색", "파란색", "녹색" 또는 "노란색" 중 하나를 대상으로 하는 최적의 캠페인 조합을 확인합니다.

대상이 숫자 열인 경우 회귀 문제에서 가장 잘 작동하는 알고리즘이 사용됩니다. 고객이 구매할 양을 예측하는 것은 회귀 문제의 한 예입니다.

이진 및 다중 클래스 분류 문제에 대한 알고리즘

Qlik 프로젝트은 이진 및 다중 클래스 분류 문제에 대해 다음 알고리즘을 사용합니다.

Catboost 분류
Elastic Net 회귀
가우시안 나이브 베이즈(Gaussian Naive Bayes)
Lasso 회귀
LightGBM 분류
로지스틱 회귀
임의 포리스트 분류
XGBoost 분류

회귀 문제에 대한 알고리즘

Qlik 프로젝트은 회귀 문제에 대해 다음 알고리즘을 사용합니다.

Catboost 회귀
LightGBM 회귀
선형 회귀
임의 포리스트 회귀
SGD 회귀
XGBoost 회귀

시계열 문제에 대한 알고리즘

Qlik 프로젝트는 시계열 문제에 대해 다음 알고리즘을 사용합니다.

시계열 DeepAR
시계열 Mixer
시계열 Dense Encoder

다양한 유형의 모델

모델 유형은 회귀 모델, 앙상블, 시계열 모델 및 기타 유형의 기계 학습 모델로 나눌 수 있습니다.

회귀 모델

회귀 모델 또는 일반 선형 모델은 서로 독립적으로 각 변수의 도메인을 따라 추세를 찾는 모델입니다. 대수 방정식 y = mx+b와 마찬가지로 알고리즘은 각 x 및 y 값에 대해 평균적으로 가장 높은 정확도를 생성하는 m 및 b를 선택하려고 합니다. 변수가 둘 이상인 경우 일반적으로 동일한 개념입니다. 선형 회귀 및 로지스틱 회귀는 각각 회귀 문제 및 분류 문제에 대한 회귀 모델의 예입니다.

분류 문제의 경우 회귀 모델 출력은 샘플이 양수 클래스일 확률입니다. 이는 y가 실제 값이 아니라 확률과 같다는 것을 의미합니다.

회귀는 데이터에서 선형 추세를 찾는 데 적합하지만 때때로 선형이 아닌 관계가 있습니다. 회귀가 비선형 패턴에 잘 맞으려면 모델을 교육하기 전에 데이터 변환이 필요합니다. 선형 관계를 확실히 이해하면 일반적으로 선형 관계가 추정에서 가장 잘 수행될 수 있습니다. 표에는 회귀 모델의 장단점이 나열되어 있습니다.

장점	단점
추정에 적합함 독립 변수에 대한 선형 추세를 찾는 데 적합함 동일한 모집단의 대용량 데이터에 적합함 이해하기 쉬움	변수 사이의 패턴 활용에 적합하지 않음 비선형 추세에 적합하지 않음 경우에 따라 너무 단순함

앙상블 모델

앙상블은 여러 모델이 결합된 경우입니다. 이는 서로 다른 배경을 가진 사람들이 투표하고 평균 투표를 사용하여 결정하는 것과 비교할 수 있습니다. 임의 포리스트 및 XGBoost는 앙상블 모델의 예입니다.

앙상블은 회귀 문제와 분류 문제를 모두 해결할 수 있습니다. 비선형 관계를 찾고 변수 간의 상호 작용이 대상에 어떤 영향을 미치는지 알아내는 데 적합합니다. 앙상블은 교육 데이터 범위 내에서 패턴을 학습하는 데 적합하지만 표시된 범위 밖의 값을 예측하는 데는 성능이 떨어집니다. 표에는 앙상블 모델의 장단점이 나열되어 있습니다.

장점	단점
변수 사이의 패턴 활용에 적합함 비선형 추세를 찾는 데 적합함 동일한 모집단의 대용량 데이터에 적합함	추정에 적합하지 않음 해석하기 쉽지 않음

시계열 모델

시계열 모델은 GPU 가속 및 신경망 기반 방법을 사용하는 심층 학습 알고리즘으로 교육됩니다. 이러한 모델은 특정 날짜와 시간에 해당하는 예측을 생성하도록 교육됩니다. 시계열 모델은 다변량 대상뿐만 아니라 정적, 과거, 미래 공변량과 관련된 예측을 지원합니다.

시계열 모델에는 많은 양의 컴퓨팅 성능이 필요합니다.

기타 모델 유형

다른 모델 유형에는 다른 모든 모델 유형이 포함됩니다. 가장 인접한 항목과 가우시안 나이브 베이즈를 예로 들 수 있습니다. 이러한 유형의 모델은 일반적으로 데이터의 새로운 공간적 표현을 만들려고 시도하며, 두 레코드가 얼마나 다른지를 측정하는 일종의 거리 메트릭을 만들어 이를 수행하는 경우가 많습니다. 비선형 추세를 잘 처리할 수 있지만 데이터 집합 크기가 증가함에 따라 계산 비용이 훨씬 더 많이 듭니다. 표에는 다른 모델의 장단점이 나열되어 있습니다.

장점	단점
변수 사이의 패턴 활용에 적합함 비선형 추세를 찾는 데 적합함	추정에 적합하지 않음 데이터 집합이 클수록 계산 비용이 높음

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.