시계열 실험 생성 및 구성

첫 번째 단계는 시계열 실험을 생성하고 구성하는 것입니다. 이전에 업로드한 학습 데이터 세트를 사용하여 예측을 수행하기 위해 배포할 준비가 될 때까지 모델을 학습시킵니다.

새 실험 생성

다음과 같이 하십시오.

분석 활동 센터의 생성 페이지로 이동하여 ML 실험을 선택합니다.
실험 이름을 입력합니다(예: Sales forecasts).
선택적으로 설명 및 태그를 추가합니다.
실험을 위한 공간을 선택합니다. 개인 공간 또는 공유 공간일 수 있습니다.
생성을 클릭합니다.
학습 데이터 세트 파일 ML - Multivariate forecasting - training.csv을 선택합니다.

시계열 학습 데이터 세트가 선택된 새 ML 실험의 스키마 보기 — 시계열 학습 데이터 세트가 선택된 ML 실험.

시계열 예측 설정 구성

1단계: 대상 선택

대상 열을 정의하는 것부터 시작합니다. 향후 매출을 예측하고자 하므로 해당 열을 대상으로 선택합니다.

다음과 같이 하십시오.

스키마 보기에서 sales 옆의 라디오 버튼을 클릭합니다. 대상 아이콘이 버튼을 대체합니다.

2단계: 시계열 실험으로 실험 구성

다음과 같이 하십시오.

구성 보기를 클릭하여 실험 구성 패널이 아직 열려 있지 않은 경우 이를 확장합니다.
실험 설정을 확장합니다.
실험 유형에서 시계열을 선택합니다. 이 옵션은 고카디널리티 숫자 열을 선택한 후에만 나타납니다.

3단계: 날짜 인덱스 선택

다음으로, 사용할 시계열 인덱스 열을 선택해야 합니다.

다음과 같이 하십시오.

구성 패널에 새 섹션인 시계열 설정이 나타납니다. 날짜 인덱스에서 드롭다운 메뉴를 클릭하여 확장합니다.
date를 선택합니다.

실험의 실험 유형 및 날짜 인덱스 선택 — 시계열이 실험 유형으로 선택되고 date가 날짜 인덱스 열로 선택된 실험 구성 패널.

4단계: 예측 창 및 갭 설정

날짜 인덱스를 선택하면 패널에 몇 가지 새로운 정보가 나타납니다.

데이터 기준 섹션으로 이동합니다. 이 섹션은 이력 데이터의 시간 범위를 개략적으로 설명하고 예측을 원하는 미래 날짜의 범위를 구성할 수 있도록 합니다.

예상 최대 예측은 180일입니다. 이 추정치는 사용 가능한 이력 데이터를 기반으로 하며, 여기서 예측 창은 사용 가능한 총 이력 데이터의 일부입니다. 이는 대상을 예측할 수 있을 것으로 추정되는 미래 시간 단계(이 경우 일수)의 최대 수를 나타냅니다. 학습 버전을 실행한 후에는 더 많은 정보가 알려지며 이 추정치는 확정적인 최대 예측으로 대체됩니다.

원하는 예측 창 크기는 미래로 몇 시간 단계를 예측할지 설정합니다. 예를 들어, 이 자습서에서 예측 창을 7로 설정하면 모델이 일주일의 미래 대상 날짜를 예측하는 것을 나타냅니다.

예측 갭 크기는 예측을 원하지 않는 학습 데이터 종료 직후의 시간 단계 수를 설정합니다. 예를 들어, 미래로 3일 이상 지난 날짜의 매출만 예측하고 싶을 수 있습니다.

다음과 같이 하십시오.

데이터 기준 섹션에서 원하는 예측 창 크기를 7 시간 단계로 설정합니다.
원하는 예측 갭 크기를 3 시간 단계로 설정합니다.

예측 범위는 시간 단계로 측정된 예측 창에 예측 갭 크기를 더한 것입니다. 이 경우 예측 범위는 10이며, 이는 예측 시점에 해당 예측 갭에 대해 실제 값이 기록되지 않았더라도 10 시간 단계 앞을 예측하고 있음을 나타냅니다.

4단계: 그룹 선택

이 자습서의 학습 데이터 세트는 다변량 예측을 위해 설계되었습니다. 다변량 예측의 목표는 대상과 함께 직접 변하는 다른 차원과 함께 대상 값을 예측하는 것입니다. 예를 들어, 이 자습서에서 데이터에는 각 매장 및 제품군에 대해 개별적으로 추적되는 매출 지표가 포함되어 있습니다. 다변량 예측을 사용하면 별도의 모델로 학습해야 할 수도 있는 이러한 각 차원을 단일 실험으로 결합하여 모델이 서로 다른 데이터 코호트 간의 패턴과 상호 작용에 대해 더 많이 학습할 수 있습니다.

학습 데이터에서 그룹으로 사용할 열을 최대 2개 선택하여 다변량 실험을 구성합니다.

이 자습서의 목표는 매장 번호 및 제품군과 함께 매출을 학습하고 예측하도록 모델을 학습시키는 것이므로 이 두 열을 그룹으로 선택합니다.

다음과 같이 하십시오.

store_nbr 및 family를 그룹으로 선택합니다.

그룹이 명시적으로 선택되지 않은 경우 모델은 범주형 기능만을 사용하여 적절한 그룹화를 자동으로 검색합니다. 유효한 그룹이 식별되면 프로세스가 학습으로 진행됩니다. 따라서 시스템이 store_nbr를 유효한 그룹 열로 자동으로 감지하도록 하려면 범주형 기능으로 표시해야 합니다.

5단계: 공변량(기능) 구성

머신 러닝에서 "공변량"과 "기능"이라는 용어는 종종 동의어로 사용되지만, Qlik 프로젝트의 시계열 예측에서는 "공변량"이라는 용어가 일반적으로 사용되며 더 설명적입니다. 다변량 시계열 모델에는 정적, 과거 및 미래의 세 가지 유형의 공변량이 있습니다.

정적 및 과거 공변량은 그룹, 날짜 인덱스 및 미래 기능을 제외하고 실험 학습에 포함하는 기능에 속합니다. 정적 및 과거 공변량은 시스템에 의해 자동으로 식별됩니다. 이러한 공변량은 기능으로 포함하는 것 외에 별도로 구성할 필요가 없습니다(그리고 미래 기능으로 구성하지 않도록 함).

미래 공변량 또는 미래 기능은 학습에 포함하는 기능을 의미하기도 합니다. 미래 공변량은 미리 알 수 있는 미래 데이터가 있는 기능입니다. 특히 선택한 예측 범위에 걸쳐 이 기능의 미래 값에 액세스할 수 있습니다. 미래 기능의 경우 모델이 학습되는 이력 시간 범위에 대한 데이터 값도 알아야 합니다.

학습 기능 목록에 미래 기능을 포함하는 것 외에도 학습 구성 패널에서 이를 미래 기능으로 구성해야 합니다. 예측 시점에 모델은 정확한 예측을 생성하기 위해 예측 범위에 걸친 미래 기능 데이터를 예상합니다.

학습 데이터에서 onpromotion 기능은 지정된 날짜에 프로모션 요율로 할인되는 제품 수를 추적합니다. 이는 미리 알려진 정보이며 이에 대해 사용 가능한 미래 데이터가 있으므로 미래 기능으로 사용할 수 있습니다.

다음과 같이 하십시오.

그룹 드롭다운 아래에서 미래 기능을 확장하고 onpromotion을 선택합니다.

요약하자면 다음과 같습니다.

onpromotion이 미래 기능으로 선택되었습니다.
날짜 인덱스 외에 학습을 위해 선택된 다른 공변량은 없습니다.

구성된 그룹, 미래 기능 및 선택된 모든 기능의 요약을 보여주는 실험 구성 패널.

다음 다이어그램은 시계열 예측 개념과 이들이 실험 구성과 어떻게 관련되는지 설명합니다. 시계열 예측 개념에 대한 자세한 내용은 다변량 시계열 예측 작업를 참조하십시오.

전체 크기로 보려면 클릭 — Qlik 프로젝트의 시계열 예측 문제의 구성 요소를 개략적으로 설명하는 간소화된 그림.

다른 설정 확인

시계열 구성을 완료했으므로 구성 패널에서 나머지 학습 설정을 검토합니다.

기능에서 4개의 기능이 선택된 것을 볼 수 있습니다.
알고리즘에서 사용 가능한 모든 알고리즘이 선택된 것을 볼 수 있습니다.

실험 학습

구성이 완료되었으며 학습을 시작할 준비가 되었습니다.

다음과 같이 하십시오.

실험 실행을 클릭합니다.

실험 실행이 완료되면 다음 단계인 결과 모델 메트릭 검토로 이동할 수 있습니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.