기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

다변량 시계열 예측 작업

Qlik 프로젝트을(를) 사용하여 시간별 지표를 예측하는 머신러닝 모델을 훈련할 수 있습니다. 신경망 기반 방법을 사용하여 모델은 시간별 연관성, 그룹화된 대상 데이터, 과거 기능 및 알려진 미래 변수를 포함하는 복잡한 패턴을 학습하고 예측합니다. 시계열 예측을 생성하려면 훈련 데이터 세트를 준비하고, 시계열 실험에서 사용하고, 모델을 배포한 다음, 예측을 생성하는 데 사용할 수 있는 적용 데이터 세트를 생성합니다.

시계열 문제의 구성 요소

시계열 예측의 목표는 미래의 특정 날짜에 대한 대상 값을 예측하는 것입니다. 예를 들어, 다음 주, 월 또는 분기의 매출을 예측하고 싶을 수 있습니다.

시계열 문제를 개발할 때 다음 구성 요소를 정의합니다.

  • 대상 및 그룹

  • 날짜 인덱스

  • 예측 범위

  • 공변량

정보 메모이 프레임워크는 시계열 예측 문제에 대한 머신러닝 질문을 정의하는 방법을 설명합니다. 분류 및 회귀 문제에 대한 머신러닝 질문을 정의하려면 기계 학습 질문 정의을(를) 참조하십시오.

Qlik 프로젝트에서 시계열 예측 문제의 구성 요소를 간략하게 설명하는 단순화된 그림입니다.

대상

다른 실험 유형과 마찬가지로, 대상은 모델이 미래 값을 예측하도록 하려는 열입니다. 시계열 실험의 경우, 대상에는 숫자 데이터(예: 판매량 또는 재고)가 포함되어야 합니다.

시계열 예측에서 그룹을 사용하는 경우, 모델은 예측 기간 내의 각 시간 단계별로 그룹당 하나의 대상 값을 예측합니다. 그룹을 사용하지 않는 경우, 학습된 모델은 예측 기간 내의 각 시간 단계별로 하나의 대상 값을 예측합니다.

날짜 인덱스

날짜 색인은 연속적인 시간 간격(시간 단계)에 걸쳐 시계열 측정항목을 추적합니다. 초기 단계에서 시간 단계를 결정해야 합니다. 미래 값을 얼마나 자주 예측해야 합니까?

구체적으로, 날짜 인덱스는 시계열 문제의 훈련 및 적용 데이터 세트에 나타나는 열입니다. 날짜 인덱스는 이 두 적용 데이터 세트의 구조를 결정합니다—각 행은 시간의 한 단계를 나타냅니다(또는 그룹과 함께, 각 고유 그룹화에 대한 시간의 한 단계).

시계열 실험에서 훈련 데이터 세트를 추가하면 가능한 날짜 인덱스 열이 자동으로 식별되고 열 수준에서 인사이트로 제공됩니다. 스키마 보기에서 가능한 날짜 인덱스 인사이트를 통해 이를 식별할 수 있습니다.

그룹

그룹은 별도로 예측을 생성하려는 범주형 정보를 포함하는 기능입니다. 그룹의 대표적인 예시로는 매장 번호와 제품이 있으며, 이는 매출과 같은 목표를 위한 데이터를 구성하는 데 사용될 수 있었습니다. 매장 번호와 제품 유형을 그룹으로 선택하면 시계열 모델이 이 열 전체의 각 개별 값에 대한 예측을 제공합니다. 예를 들어, 매출을 목표로 할 때 세 개의 매장 번호(1, 2, 3)와 두 가지 제품 유형(식료품 및 농산물)이 있다면, 모델은 이러한 값들의 각 고유한 조합에 대한 매출 예측을 생성합니다.

데이터가 있고 범주별 개별 예측이 필요한 경우 시계열 문제에 그룹을 통합해야 합니다. 그룹의 또 다른 장점은 모델이 전역적으로 학습하여 정의한 다양한 그룹화 간에 존재하는 패턴을 더 잘 이해할 수 있다는 것입니다.

각 실험 버전에서 사용할 그룹을 구성할 수 있습니다. 그룹을 지정하지 않았지만 훈련 데이터 세트에서 그룹이 식별된 경우, 훈련은 그룹을 사용합니다.

그룹은 날짜 인덱스 열의 복제 값으로 식별됩니다. 예를 들어, 2025년 1월 14일 날짜에 대해 두 개의 레코드가 있습니다. 하나는 A 매장용이고 다른 하나는 B 매장용입니다.

시계열 실험의 각 그룹(대상 단독 포함)은 데이터 세트 내에서 별도의 시계열로 간주됩니다. 시계열이란 무엇입니까?을 참조하십시오.

예측 범위

예측 범위는 미래에 대해 얼마나 멀리 예측할 것인지 지정합니다. 예측 범위는 예측 기간(예측이 필요한 시간 단계 수)과 예측 간격(예측을 원하지 않는 과거 데이터 이후의 선택적 시간 단계 수)으로 구성됩니다.

실험 버전을 구성할 때 예측 기간과 간격 크기를 설정합니다. 이 값은 모델 훈련 중과 ML 배포로 배포된 모델에서 예측을 생성할 때 모두 사용됩니다.

예측 기간은 미래에 대해 예측하려는 시간 단계의 수입니다. 예를 들어, 시간 단계가 하루이고 향후 2주간의 판매를 예측하려는 경우 예측 기간을 14로 설정합니다.

예측 간격은 예측이 필요하지 않은 미래의 시간량입니다. 예측 간격을 설정하는 것은 필요할 수도 있고 필요하지 않을 수도 있기 때문에 선택 사항입니다. 예측 간격은 제공한 기록된 과거 훈련 데이터의 끝에서 시작됩니다. 예측 기간은 예측 간격이 끝나는 지점에서 시작됩니다.

예를 들어, 미래 판매를 예측하려고 할 수 있지만, 입력 데이터 종료 후 1주일보다 늦은 날짜의 미래 판매에만 관심이 있을 수 있습니다. 이 경우, 시간 단계가 일 단위라면 예측 간격 크기를 7개의 시간 단계로 설정할 수 있습니다.

선택한 예측 창은 보유한 훈련 데이터 양과 더불어 미래를 얼마나 멀리 예측할 수 있는지 제한합니다. 자세한 내용은 최대 예측 기간을 참조하십시오.

공변량

시계열 문제에서 기능은 종종 공변량이라고 불립니다. 다른 머신러닝 문제와 유사하게, 공변량은 대상의 결과에 영향을 미친다고 의심하는 다른 변수입니다. 각 공변량은 훈련 데이터세트에서 단일 열로 표현됩니다.

시계열 예측에는 여러 유형의 공변량이 있으며 몇 가지 중요한 차이점이 있습니다.

  • 정적 공변량: 시계열 과정 동안 변하지 않는 열입니다. 정적 공변량은 그룹이 사용되는 시계열 실험에 적용 가능합니다. 예를 들어, 제품 및 매장 번호에 대한 그룹이 있고 기본 할인 기능이 있다고 가정해 보겠습니다. 매장 1의 제품 A에 기본 할인 10%가 있고 매장 2의 제품 B에 기본 할인 20%가 있는 경우, 기본 할인은 정적 공변량이 됩니다. 즉, 해당 기능이 나타나는 그룹의 데이터 내에서 변동하지 않습니다.

    정적 공변량은 실험에 포함하는 과거 기능에서 자동으로 감지됩니다. 어떤 기능이 정적 공변량인지 나타낼 필요가 없습니다.

  • 과거 공변량: 과거 데이터에서만 사용할 수 있으며 이 데이터 전체에서 변동하는 시간 종속 변수입니다. 과거 공변량은 실험에 포함하는 과거 기능에서 자동으로 감지됩니다. 어떤 기능이 과거 공변량인지 명시적으로 나타낼 필요는 없습니다.

  • 미래 공변량: 미래 기능이라고도 하는 미래 공변량은 예측 범위 내에서 미래 값을 알 수 있는 시간 종속 변수입니다. 학습에서 미래 공변량을 사용할 때는 학습 구성에서 이를 미래 기능으로 나타내야 합니다.

향후 기능

미래 기능을 사용하여 이미 알고 있거나 합리적으로 예상할 수 있는 미래 정보에 대한 추가 데이터를 모델에 제공할 수 있습니다. 특히, 선택한 예측 범위에 걸쳐 이 기능의 미래 값에 액세스할 수 있습니다. 미래 기능을 정의할 때 과거 데이터와 미래 데이터를 모두 제공해야 합니다.

예를 들어, 상점에서 제공하는 미래 할인에 영향을 받을 수 있는 지표를 예측하는 모델의 경우, 과거에 관찰된 할인과 예측 기간 내의 미래 기간에 대한 할인을 포함할 수 있습니다. 미래 기능의 다른 예로는 날씨 또는 캘린더 정보가 있습니다.

기타 중요한 개념

이 섹션에서는 시계열 문제와 관련이 있지만 실험 또는 ML 배포에서 직접 구성하지 않는 개념을 설명합니다. 이들은 데이터 또는 모델에 대해 구성하는 다른 속성에 의해 정의되는 속성입니다.

시간 단계

시간 단계는 훈련 데이터셋에 의해 정의되며 훈련 및 예측 모두에 중요합니다.

훈련 데이터세트에서 시간 단계는 날짜 인덱스의 데이터가 기록되는 간격입니다. 예를 들어, 시간 단계는 매일, 매시간, 매분 또는 매초일 수 있습니다.

훈련 데이터에 사용된 시간 단계를 인지하는 것이 중요합니다. 예측 창 및 예측 간격 크기와 같이 정의하는 다른 실험 매개변수는 이 시간 단계 간격을 팔로우합니다.

모델을 배포한 후, 예측을 생성하려는 적용 데이터는 훈련 데이터세트에서 정의된 것과 동일한 시간 단계를 팔로우해야 합니다.

품질

훈련 데이터 세트를 선택하면 시스템이 사용된 시간 단계를 추론합니다. 날짜 인덱스에 누락된 값이나 공백이 있는 경우, 타겟, 그룹, 공변량과 같은 열은 시스템에 의해 자동으로 보간될 수 있습니다. 그러나 데이터에 서로 다른 시간 단계가 감지될 정도로 일치하지 않는 시간 간격이 포함된 경우, 데이터를 먼저 수정해야 합니다. 예를 들어, 매일 한 번 기록된 몇 달간의 데이터가 있지만, 데이터가 일관되게 매주 기록되는 섹션이 있는 경우, 여러 시간 단계가 감지되므로 데이터 세트를 사용할 수 없습니다.

적용 창

적용 기간 또는 회고 기간은 알고리즘이 지정된 예측 기간에 대한 예측을 제공하는 데 사용할 수 있는 훈련 데이터의 일부입니다.

적용 기간은 시스템에 의해 계산되고 설정됩니다. 이는 시간 단계로 측정됩니다. 적용 기간은 사용자가 예측 기간 및 간격(예측 범위)으로 설정한 값에 의해 정의됩니다. 적용 창 크기는 실험 구성 패널 및 모델 학습 요약에 표시됩니다(최소한 하나의 실험 버전을 실행한 후). 또한 배치 예측 구성을 생성하거나 편집할 때 ML 배포 모델 스키마에 표시됩니다.

적용 기간은 사용자의 훈련 구성에서 자동으로 식별됩니다. 주어진 예측 기간에 대한 예측을 생성하려면 최소한 적용 기간을 포함하는 과거 데이터를 제공해야 합니다. 이는 적용 데이터세트에서 제공됩니다. 적용 데이터 집합 준비을 참조하십시오.

최대 예측 기간

시계열 실험을 구성할 때 최대 예측 기간이 추정됩니다. 학습 버전을 실행한 후 최대 예측 기간이 확실하게 확인됩니다. 최대 예측 기간은 실험 구성 패널에서 대상 및 실험 유형을(를) 열 때 데이터 기반 아래에 예상 최대 예측 또는 최대 예측으로 표시됩니다. 최대 예측 기간은 선택한 예측 기간, 제공한 과거 데이터 양, 시스템에서 예상하는 최소 샘플 크기를 고려할 때 예측을 생성할 수 있는 최대 시간 단계 수입니다. 더 많은 과거 데이터를 제공할수록 더 먼 미래를 예측할 수 있습니다. 하지만, 신뢰할 수 있는 예측을 생성하려면 합리적인 예측 기간을 선택하는 것이 중요합니다.

최대 예측 창은 최대 180개의 시간 단계까지 가능합니다.

예측 마감 시간

예측 마감 시간은 예측 중에 적용 데이터세트를 정의할 때 특히 중요합니다. 예측 마감 시간은 샘플에서 대상 값이 있는 마지막 날짜입니다. 본질적으로 이 마감 시간 이후의 날짜는 예측을 생성하려는 날짜입니다.

시계열이란 무엇입니까?

Qlik 프로젝트 시계열 예측에서 각 그룹(대상 단독 포함)은 훈련 데이터세트 내에서 별도의 시계열로 간주됩니다. 예를 들어, 교육 데이터 집합에 판매 지표가 포함되어 있다고 가정해 보겠습니다. 이러한 판매 지표는 각 매장 및 제품 유형에 대해 정의됩니다. 매장 및 제품 유형 열이 그룹으로 정의되면 교육 데이터 집합에 세 개의 시계열이 있습니다.

교육 데이터 집합 준비

다변량 시계열 예측의 경우 교육 데이터 집합에는 다음 열이 포함되어야 합니다.

  • 날짜 인덱스

  • 대상 열

  • 그룹 열 (선택 사항)

  • 기능 열 (선택 사항—기능이 없으면 단변량 예측 모델을 학습하는 것입니다)

시계열 학습 데이터 세트에 필요한 열과 데이터를 보여주는 그림입니다. 그룹이 없는 시나리오, 하나의 그룹, 그리고 두 개의 그룹이 설명되어 있습니다.

시계열 예측 모델을 위한 훈련 데이터세트의 필요한 구성 요소 및 타임라인을 설명하는 선형 다이어그램입니다.

날짜 인덱스 열

전체 날짜 또는 타임스탬프를 포함하는 날짜 인덱스가 필요합니다. 이 열은 대상 및 공변량 지표가 추적되는 시간순 인덱스입니다. 날짜 인덱스 열은 일관된 시간 간격(시간 단계)을 따라 시간 기반 측정값을 순차적으로 구성합니다.

그룹 사용 여부에 따라 날짜 인덱스 열은 다음과 같이 구성됩니다:

  • 그룹 없음: 각 시간 단계에 대한 단일 레코드. 예를 들어, 일일 예측의 경우 각 행은 단일 날짜를 나타냅니다.

  • 그룹 사용 시: 사용된 그룹에 따라 각 시간 단계에 대해 하나 이상의 복제 항목.

다변량 훈련 데이터셋의 경우, 사용된 그룹에 따라 각 시간 단계에 대해 하나 이상의 복제 항목이 있습니다. 사용하는 시간 단계에 유연성이 있습니다. 예를 들어, 날짜를 매일, 매주, 매월 단위로 한 번 이상 기록할 수 있습니다.

이 열에 누락되거나 일관성 없이 기록된 값은 보간할 수 있다면 때때로 허용됩니다.하지만, 날짜 인덱스 값은 여러 다른 시간 단계를 포함할 수 없습니다. 예를 들어, 간격이 하루 한 번으로 결정되었는데, 어떤 시점에서 하루 두 번의 간격이 식별되면 학습 중에 오류가 발생합니다.

대상 열 및 그룹 열

예측하려는 숫자 측정항목이 포함된 대상 열이 데이터 세트에 있어야 합니다. 일반적인 예로는 판매가 있습니다.

그룹을 사용하는 경우, 추가하는 그룹의 각 가능한 값에 대한 과거 대상 값을 제공합니다. 예를 들어, 대상이 판매이고 Store A 및 Store B에 대한 데이터가 포함된 그룹 '매장 번호'를 추가하는 경우, 데이터 세트에는 각 시간 단계에 대해 두 개의 개별 레코드가 포함되어야 합니다. 하나는 Store A의 판매 값이고 다른 하나는 Store B의 판매 값입니다.

특징 열

어떤 공변량도 없이 시계열 모델을 훈련할 수 있습니다. 하지만 공변량을 포함하는 경우, 각 기능에 대해 데이터 세트에 열을 제공하십시오. 기능 데이터는 미래 기능을 추가하는 경우가 아니라면 일반적으로 과거에 기록된 데이터여야 합니다. 미래 기능 열은 과거 데이터와 미래 데이터를 모두 포함할 수 있습니다. 예측을 생성할 때 이 열의 미래 값을 알 수 있다고 확신하는 경우에만 훈련 데이터 세트에 미래 기능 데이터를 포함해야 합니다.

미래 기능으로 사용할 기능들을 기록해 두세요. 학습 구성에서 그렇게 선택해야 합니다.

데이터 볼륨

데이터세트에는 충분한 레코드가 포함되어야 합니다. 과거 데이터의 볼륨은 미래를 얼마나 멀리 예측할 수 있는지 결정하는 데 중요한 역할을 합니다. 원하는 예측 기간도 필요한 과거 데이터의 양에 영향을 미칩니다.

일반적으로, 더 많은 과거 데이터가 더 적은 것보다 낫습니다. 하지만, 데이터는 양질이어야 하며 원하는 추세를 포착해야 합니다. 데이터가 관련 없는 정보를 제공하거나 부정확한 내용을 포함하는 경우, 모델에 포함하는 것은 도움이 되지 않습니다. 볼륨 최적화와 품질 및 관련성 유지 사이의 균형을 고려하십시오.

적용 데이터 집합 준비

시계열 모델을 배포한 후, 예측이 이루어질 적용 데이터 집합을 개발해야 합니다.

적용 데이터 집합 — 요구 사항 및 유효성 검사

시계열 모델의 경우, 적용 데이터세트에는 다음이 필요합니다:

  • 학습 데이터세트에 포함된 모든 열의 열 및 열 헤더.

  • 학습 데이터세트와 동일한 시간 단계.

  • 모델의 적용 창에 있는 레코드 수만큼 또는 그 이상의 과거 데이터 레코드(대상 및 그룹별)가 예측 마감 시간 이전에 있어야 합니다. 이것들은 과거에 관측된 날짜 또는 시간 스탬프, 대상, 그리고 공변량 값을 포함하는 전체 레코드여야 합니다. 적용 창은 학습 중에 구성된 예측 창 및 간격에 의해 결정됩니다. — 미래를 예측해야 하는 기간이 길수록 예측을 실행하기 위해 적용 데이터세트에 더 많은 과거 데이터가 필요합니다.

  • 예측 범위 내의 모든 미래 시간 단계에 대한 기록입니다. 이러한 미래 기록의 경우, 날짜 인덱스 열의 값과 모든 미래 기능만 포함하십시오. 다른 열의 값은 비워 두십시오.

팁 메모적용 데이터세트에 대한 대부분의 과거 데이터 요구 사항은 최소 허용 가능한 데이터 볼륨을 지정하는 것입니다. 필요한 것보다 더 많이 항상 제공할 수 있습니다. 모델이 예측을 생성할 때, 적용 창을 포함하기 위해 필요한 레코드만 사용됩니다.

시계열 예측 모델에서 예측을 생성하는 데 사용되는 적용 데이터세트에 필요한 열과 데이터를 보여주는 그림. 그룹 없음, 그룹 1개, 그룹 2개 시나리오가 설명되어 있습니다.

시계열 예측 모델을 사용하여 예측을 생성하는 데 사용되는 적용 데이터 세트의 필요한 구성 요소와 타임라인을 설명하는 선형 다이어그램.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!