다변량 시계열 예측 작업 | Qlik Cloud 도움말
기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

다변량 시계열 예측 작업

Qlik 프로젝트를 사용하면 머신 러닝 모델을 학습시켜 시간별 지표를 예측할 수 있습니다. 신경망 기반 방법을 사용하여 모델은 시간별 연관성, 그룹화된 대상 데이터, 과거 기능 및 알려진 미래 변수와 관련된 복잡한 패턴을 학습하고 예측합니다. 시계열 예측을 생성하려면 학습 데이터 세트를 준비하고, 이를 시계열 실험에 사용하고, 모델을 배포한 다음, 예측을 생성하는 데 사용할 적용 데이터 세트를 만듭니다.

시계열 문제의 구성 요소

시계열 예측의 목표는 미래의 특정 날짜에 대한 대상 값을 예측하는 것입니다. 예를 들어 다음 주, 다음 달 또는 다음 분기의 매출을 예측할 수 있습니다.

시계열 문제를 개발할 때 다음 구성 요소를 정의하십시오.

  • 대상 및 그룹

  • 날짜 인덱스

  • 예측 기간

  • 공변량

정보 메모이 프레임워크는 시계열 예측 문제에 대한 머신 러닝 질문을 정의하는 방법을 설명합니다. 분류 및 회귀 문제에 대한 머신 러닝 질문을 정의하려면 기계 학습 질문 정의를 참조하십시오.

Qlik 프로젝트에서 시계열 예측 문제의 구성 요소를 설명하는 단순화된 그림입니다.

시계열 예측 문제의 구성 요소를 보여주는 단순화된 그림

대상

다른 실험 유형과 마찬가지로 대상은 모델이 미래 값을 예측하려는 열입니다. 시계열 실험의 경우 대상에는 매출이나 재고와 같은 숫자 데이터가 포함되어야 합니다.

시계열 예측에서 그룹을 사용하는 경우 모델은 예측 창의 각 시간 단계별로 그룹당 하나의 대상 값을 예측합니다. 그룹을 사용하지 않는 경우 학습된 모델은 예측 창의 각 시간 단계에 대해 하나의 대상 값을 예측합니다.

날짜 인덱스

날짜 인덱스는 연속적인 시간 간격(시간 단계)에 걸쳐 시계열 지표를 추적합니다. 초기 단계에서 시간 단계를 결정해야 합니다. 미래 값을 얼마나 자주 예측해야 합니까?

구체적으로 날짜 인덱스는 시계열 문제에 대한 학습 및 적용 데이터 세트에 나타나는 열입니다. 날짜 인덱스는 이 두 적용 데이터 세트의 구조를 결정합니다. 각 행은 시간의 단계를 나타냅니다(또는 그룹이 있는 경우 각 고유 그룹화에 대한 시간의 단계를 나타냄).

시계열 실험에 학습 데이터 세트를 추가하면 가능한 날짜 인덱스 열이 자동으로 식별되어 열 수준에서 인사이트로 표시됩니다. 스키마 보기의 가능한 날짜 인덱스 인사이트에서 이를 식별할 수 있습니다.

그룹

그룹은 별도로 예측을 생성하려는 범주형 정보가 포함된 기능입니다. 그룹의 고전적인 예로는 매출과 같은 대상에 대한 데이터를 구성하는 데 사용될 수 있는 매장 번호와 제품이 있습니다. 매장 번호와 제품 유형을 그룹으로 선택하면 시계열 모델이 이러한 열 전체에서 각 개별 값에 대한 예측을 제공합니다. 예를 들어 매출을 대상으로 할 때 매장 번호가 1, 2, 3이고 제품 유형이 식료품과 농산물인 경우 모델은 이러한 값의 각 고유 조합에 대한 매출 예측을 생성합니다.

데이터가 있고 범주별로 개별 예측이 필요한 경우 시계열 문제에 그룹을 통합해야 합니다. 그룹의 또 다른 장점은 모델이 전역적으로 학습하여 정의한 서로 다른 그룹화 간에 존재하는 패턴을 더 잘 이해할 수 있다는 것입니다.

각 실험 버전에 사용할 그룹을 구성할 수 있습니다. 그룹을 지정하지 않았지만 학습 데이터 세트에서 그룹이 식별된 경우 학습은 그룹을 사용합니다.

그룹은 날짜 인덱스 열의 중복 값으로 식별됩니다. 예를 들어 2025년 1월 14일 날짜에 대해 매장 A용 레코드와 매장 B용 레코드, 두 개의 레코드가 있습니다.

시계열 실험의 각 그룹(대상만 포함)은 데이터 세트 내에서 별도의 시계열로 간주됩니다. 시계열이란 무엇입니까?를 참조하십시오.

예측 기간

예측 기간은 미래로 얼마나 멀리 예측할지 지정합니다. 예측 기간은 예측 창(예측이 필요한 시간 단계 수)과 예측 간격(과거 데이터 이후 예측을 원하지 않는 선택적 시간 단계 수)으로 구성됩니다.

실험 버전을 구성할 때 예측 창과 간격 크기를 설정합니다. 이러한 값은 모델 학습 중과 ML 배포로 배포된 모델에서 예측을 생성할 때 모두 사용됩니다.

예측 창은 미래로 예측하려는 시간 단계의 수입니다. 예를 들어 시간 단계가 1일이고 다음 2주 동안의 매출을 예측하려는 경우 예측 창을 14로 설정합니다.

예측 간격은 예측이 필요하지 않은 미래의 시간입니다. 예측 간격 설정은 선택 사항입니다. 예측 간격은 제공한 기록된 과거 학습 데이터의 끝에서 시작됩니다. 예측 창은 예측 간격이 끝나는 곳에서 시작됩니다.

예를 들어 미래 매출을 예측하려고 하지만 입력 데이터가 끝난 후 1주일 이후의 미래 매출에만 관심이 있을 수 있습니다. 이 경우 시간 단계를 일 단위로 설정하고 예측 간격 크기를 7시간 단계로 설정할 수 있습니다.

선택한 예측 창은 보유한 학습 데이터의 양과 함께 미래로 예측할 수 있는 범위를 제한합니다. 자세한 내용은 최대 예측 창을 참조하십시오.

공변량

시계열 문제에서 기능은 종종 공변량이라고 합니다. 다른 머신 러닝 문제와 마찬가지로 공변량은 대상의 결과에 영향을 미친다고 의심되는 다른 변수입니다. 각 공변량은 학습 데이터 세트의 단일 열로 표시됩니다.

시계열 예측에는 여러 유형의 공변량이 있으며 몇 가지 중요한 차이점이 있습니다.

  • 정적 공변량: 시계열 과정에서 변하지 않는 열입니다. 정적 공변량은 그룹이 사용되는 시계열 실험에 적용할 수 있습니다. 예를 들어 제품 및 매장 번호에 대한 그룹이 있고 기본 할인이라는 기능이 있다고 가정해 보겠습니다. 매장 1의 제품 A에 10%의 기본 할인이 있고 매장 2의 제품 B에 20%의 기본 할인이 있는 경우 기본 할인은 정적 공변량이 됩니다. 즉, 나타나는 그룹 내에서 변하지 않습니다.

    정적 공변량은 실험에 포함하는 과거 기능에서 자동으로 감지됩니다. 어떤 기능이 정적 공변량인지 표시할 필요는 없습니다.

  • 과거 공변량: 과거 데이터에서만 사용할 수 있고 이 데이터 전체에서 변하는 시간 종속 변수입니다. 과거 공변량은 실험에 포함하는 과거 기능에서 자동으로 감지됩니다. 어떤 기능이 과거 공변량인지 명시적으로 표시할 필요는 없습니다.

  • 미래 공변량: 미래 기능이라고도 하는 미래 공변량은 예측 기간 내에서 미래 값을 알 수 있는 시간 종속 변수입니다. 학습에 미래 공변량을 사용할 때는 학습 구성에서 이를 미래 기능으로 표시해야 합니다.

미래 기능

미래 기능을 사용하면 이미 알고 있거나 합리적으로 예상할 수 있는 미래 정보에 대한 추가 데이터를 모델에 제공할 수 있습니다. 특히 선택한 예측 기간에 걸쳐 이 기능에 대한 미래 값에 액세스할 수 있습니다. 미래 기능을 정의할 때는 과거 데이터와 미래 데이터를 모두 제공해야 합니다.

예를 들어 매장에서 제공하는 향후 할인에 의해 영향을 받을 수 있는 지표를 예측하는 모델의 경우 과거에 관찰된 할인과 예측 창 내의 향후 기간에 대한 할인을 포함할 수 있습니다. 미래 기능의 다른 예로는 날씨나 달력 정보가 있습니다.

기타 중요한 개념

이 섹션에서는 시계열 문제와 관련이 있지만 실험이나 ML 배포에서 직접 구성하지 않는 개념을 설명합니다. 이는 데이터 또는 모델에 대해 구성하는 다른 속성에 의해 정의되는 속성입니다.

시간 단계

시간 단계는 학습 데이터 세트에 의해 정의되며 학습과 예측 모두에 중요합니다.

학습 데이터 세트에서 시간 단계는 날짜 인덱스의 데이터가 기록되는 간격입니다. 예를 들어 시간 단계는 일별, 시간별, 분별 또는 초별일 수 있습니다. 감지된 가장 작은 시간 단계는 밀리초입니다.

학습 데이터에 사용된 시간 단계를 인식하는 것이 중요합니다. 예측 창 및 예측 간격 크기와 같이 정의하는 다른 실험 매개 변수는 이 시간 단계 간격을 따릅니다.

모델을 배포한 후 예측을 생성하려는 적용 데이터는 학습 데이터 세트에 정의된 것과 동일한 시간 단계를 따라야 합니다.

품질

학습 데이터 세트를 선택하면 시스템이 사용된 시간 단계를 추론합니다. 날짜 인덱스에 누락된 값이나 간격이 있는 경우 대상, 그룹 및 공변량과 같은 열을 시스템에서 자동으로 보간할 수 있습니다. 그러나 데이터에 서로 다른 시간 단계가 감지될 정도로 일관되지 않은 시간 간격이 포함된 경우 데이터를 먼저 수정해야 합니다. 예를 들어 매일 한 번 기록된 몇 달치 데이터가 있지만 데이터가 일관되게 주 단위로 기록되는 섹션이 있는 경우 여러 시간 단계가 감지되므로 데이터 세트를 사용할 수 없습니다.

적용 창

적용 창 또는 룩백 기간은 알고리즘이 지정된 예측 창에 대한 예측을 제공하는 데 사용할 수 있는 학습 데이터의 일부입니다.

적용 창은 시스템에 의해 계산되고 설정됩니다. 이는 시간 단계로 측정됩니다. 적용 창은 예측 창 및 간격(예측 기간)으로 설정한 값에 의해 정의됩니다. 적용 창 크기는 실험 구성 패널과 최소 하나의 실험 버전을 실행한 후 모델 학습 요약에 표시됩니다. 또한 배치 예측 구성을 만들거나 편집할 때 ML 배포 모델 스키마에도 표시됩니다.

적용 창은 학습 구성에서 자동으로 식별됩니다. 주어진 예측 창에 대한 예측을 생성하려면 적용 창을 최소한으로 포함하는 과거 데이터를 제공해야 합니다. 이는 적용 데이터 세트에서 제공됩니다. 적용 데이터 세트 준비를 참조하십시오.

최대 예측 창

최대 예측 창은 시계열 실험을 구성할 때 추정됩니다. 학습 버전을 실행한 후 최대 예측 창이 확실하게 확인됩니다. 최대 예측 창은 실험 구성 패널에서 대상 및 실험 유형을 열 때 데이터 기반 아래에 예상 최대 예측 또는 최대 예측으로 표시됩니다. 최대 예측 창은 선택한 예측 창, 제공한 과거 데이터의 양, 시스템에서 예상하는 최소 샘플 크기를 고려하여 예측을 생성할 수 있는 최대 시간 단계 수입니다. 더 많은 과거 데이터를 제공할수록 미래를 더 멀리 예측할 수 있습니다. 그러나 신뢰할 수 있는 예측을 생성하려면 합리적인 예측 창을 선택하는 것이 중요합니다.

최대 예측 기간은 180 시간 단계까지 가능합니다.

예측 차단 시간

예측 차단 시간은 예측 중에 적용 데이터 세트를 정의할 때 특히 중요합니다. 예측 차단 시간은 대상 값이 있는 샘플의 마지막 날짜입니다. 본질적으로 이 차단 시간 이후의 날짜는 예측을 생성하려는 날짜입니다.

시계열이란 무엇입니까?

Qlik 프로젝트 시계열 예측에서 각 그룹(대상만 포함)은 학습 데이터 세트 내에서 별도의 시계열로 간주됩니다. 예를 들어 학습 데이터 세트에 매출 지표가 포함되어 있다고 가정해 보겠습니다. 이러한 매출 지표는 각 매장 및 제품 유형에 대해 정의됩니다. 매장 및 제품 유형 열이 그룹으로 정의된 경우 학습 데이터 세트에는 세 개의 시계열이 있습니다.

학습 데이터 세트 준비

다변량 시계열 예측의 경우 학습 데이터 세트에 다음 열이 포함되어야 합니다.

  • 날짜 인덱스

  • 대상 열

  • 그룹 열(선택 사항)

  • 기능 열(선택 사항—기능이 없으면 단변량 예측 모델을 학습하는 것입니다)

시계열 학습 데이터 세트에 필요한 열과 데이터를 보여주는 그림입니다. 그룹이 없는 시나리오, 하나의 그룹이 있는 시나리오, 두 개의 그룹이 있는 시나리오가 설명되어 있습니다.

시계열 학습 데이터 세트에 필요한 열과 데이터를 보여주는 그림

시계열 예측 모델을 위한 학습 데이터 세트의 필요한 구성 요소와 타임라인을 설명하는 선형 다이어그램입니다.

시계열 예측 모델을 위한 학습 데이터 세트의 구성 요소와 타임라인을 설명하는 선형 다이어그램

날짜 인덱스 열

전체 날짜 또는 시간 스탬프가 포함된 날짜 인덱스가 필요합니다. 이 열은 대상 및 공변량 지표가 추적되는 연대순 인덱스입니다. 날짜 인덱스 열은 일관된 시간 간격(시간 단계)을 따라 시간 기반 측정을 순차적으로 구성합니다.

날짜 인덱스 열은 그룹 사용 여부에 따라 다음과 같이 구성됩니다.

  • 그룹 없음: 각 시간 단계에 대한 단일 레코드입니다. 예를 들어 일별 예측의 경우 각 행은 하루를 나타냅니다.

  • 그룹 있음: 사용된 그룹에 따라 각 시간 단계에 대해 하나 이상의 중복 항목이 있습니다.

다변량 학습 데이터 세트의 경우 사용된 그룹에 따라 각 시간 단계에 대해 하나 이상의 중복 항목이 있습니다. 사용하는 시간 단계에는 유연성이 있습니다. 예를 들어 일별, 주별 또는 월별 기준으로 날짜를 한 번 이상 기록할 수 있습니다.

이 열의 누락되거나 일관되지 않게 기록된 값은 보간할 수 있는 경우 허용되기도 합니다. 그러나 날짜 인덱스 값에는 서로 다른 여러 시간 단계가 포함될 수 없습니다. 예를 들어 간격이 매일 한 번으로 결정되었지만 어느 시점에서 하루에 두 번의 간격이 식별되면 학습 중에 오류가 발생합니다.

대상 열 및 그룹 열

데이터 세트에는 예측하려는 숫자 지표가 포함된 대상 열이 있어야 합니다. 일반적인 예는 매출입니다.

그룹을 사용하는 경우 추가하는 그룹의 각 가능한 값에 대해 과거 대상 값을 제공합니다. 예를 들어 대상이 매출이고 매장 A와 매장 B에 대한 데이터가 포함된 매장 번호 그룹을 추가하는 경우 데이터 세트에는 각 시간 단계에 대해 두 개의 별도 레코드(매장 A의 매출 값이 있는 레코드와 매장 B의 매출 값이 있는 레코드)가 포함되어야 합니다.

기능 열

어떤 공변량도 없이 시계열 모델을 학습할 수 있습니다. 그러나 공변량을 포함하는 경우 각 기능에 대해 데이터 세트에 열을 제공하십시오. 미래 기능을 추가하지 않는 한 기능 데이터는 일반적으로 과거에 기록된 데이터여야 합니다. 미래 기능 열에는 과거 데이터와 미래 데이터가 모두 포함될 수 있습니다. 예측을 생성할 때 이러한 열의 미래 값을 알 수 있다고 확신하는 경우에만 학습 데이터 세트에 미래 기능 데이터를 포함해야 합니다.

학습 구성에서 미래 기능으로 선택해야 하므로 어떤 기능을 미래 기능으로 사용할지 추적하십시오.

데이터 볼륨

데이터 세트에는 충분한 레코드가 포함되어야 합니다. 데이터 볼륨은 모든 그룹에서 공유되는 시간 범위에 의해 결정됩니다. 이 중복 기간의 데이터만 실험을 학습하는 데 사용됩니다.

과거 데이터의 볼륨은 미래를 얼마나 멀리 예측할 수 있는지 결정하는 데 역할을 합니다. 원하는 예측 창도 필요한 과거 데이터의 양에 영향을 미칩니다.

일반적으로 과거 데이터는 많을수록 좋습니다. 그러나 데이터는 품질이 좋아야 하며 원하는 추세를 포착해야 합니다. 데이터가 관련 없는 정보를 제공하거나 부정확한 내용을 포함하는 경우 모델에 포함하는 것은 도움이 되지 않습니다. 볼륨 최적화와 품질 및 관련성 유지 사이의 균형을 고려하십시오.

적용 데이터 세트 준비

시계열 모델을 배포한 후 예측을 수행할 적용 데이터 세트를 개발해야 합니다.

적용 데이터 세트 — 요구 사항 및 유효성 검사

시계열 모델의 경우 적용 데이터 세트에는 다음이 필요합니다.

  • 학습 데이터 세트에 포함된 모든 열에 대한 열 및 열 머리글입니다.

  • 학습 데이터 세트와 동일한 시간 단계입니다.

  • 학습 데이터 세트에 존재했던 모든 그룹 및 그룹 값입니다.

  • 모델의 적용 창에 있는 레코드 수와 같거나 더 많은 예측 컷오프 시간 이전의 과거 데이터 레코드(대상 및 그룹별)입니다. 이는 과거에 관찰된 날짜 또는 타임스탬프, 대상공변량 값을 포함하는 전체 레코드여야 합니다. 적용 창은 학습 중에 구성된 예측 창 및 간격에 의해 결정됩니다. 즉, 더 먼 미래를 예측해야 할수록 예측을 실행하기 위해 적용 데이터 세트에 더 많은 과거 데이터가 필요합니다.

  • 예측 범위의 모든 미래 시간 단계에 대한 레코드입니다. 이러한 미래 레코드의 경우 날짜 인덱스 열의 값과 모든 미래 기능만 포함합니다. 다른 열의 값은 비워 둡니다.

팁 메모적용 데이터 세트에 대한 대부분의 과거 데이터 요구 사항은 최소 허용 데이터 볼륨을 지정하기 위한 것입니다. 항상 필요한 것보다 더 많이 제공할 수 있습니다. 모델이 예측을 생성할 때 적용 창을 덮는 데 필요한 레코드만 사용됩니다.

시계열 예측 모델에서 예측을 생성하는 데 사용되는 적용 데이터 세트에 필요한 열과 데이터를 보여주는 그림입니다. 그룹이 없는 시나리오, 하나의 그룹이 있는 시나리오, 두 개의 그룹이 있는 시나리오가 설명되어 있습니다.

시계열 예측 모델에서 예측을 생성하는 데 사용되는 적용 데이터 세트에 필요한 열과 데이터를 보여주는 그림

시계열 예측 모델로 예측을 생성하는 데 사용되는 적용 데이터 세트의 필요한 구성 요소와 타임라인을 설명하는 선형 다이어그램입니다.

시계열 예측 모델로 예측을 생성하는 데 사용되는 적용 데이터 세트의 구성 요소와 타임라인을 설명하는 선형 다이어그램

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!