Ir para conteúdo principal Pular para conteúdo complementar

Trabalhando com previsão de séries temporais multivariadas

Com o Qlik Predict, você pode treinar modelos de aprendizado de máquina para prever métricas específicas de tempo. Usando métodos baseados em redes neurais, os modelos aprendem e preveem padrões complexos envolvendo associações específicas ao longo do tempo, dados-alvo agrupados, características históricas e variáveis futuras conhecidas. Para criar uma previsão de séries temporais, prepare um conjunto de dados de treinamento, utilize-o em um experimento de séries temporais, implemente um modelo e, em seguida, crie conjuntos de dados de aplicação que você poderá usar para gerar previsões.

Componentes de um problema de série temporal

Com a previsão de séries temporais, o objetivo é prever valores-alvo para datas específicas no futuro. Por exemplo, você pode querer prever as vendas para a próxima semana, mês ou trimestre.

Ao desenvolver seu problema de séries temporais, defina os seguintes componentes:

  • Alvo e grupos

  • Índice de datas

  • Horizonte de previsão

  • Covariáveis

Nota informativaEssa estrutura descreve como definir uma questão de aprendizado de máquina para problemas de previsão de séries temporais. Para definir questões de aprendizado de máquina para problemas de classificação e regressão, consulte Definindo perguntas de aprendizado de máquina.

Ilustração simplificada delineando os componentes de um problema de previsão de série temporal no Qlik Predict.

Destino

Como em outros tipos de experimentos, o alvo é a coluna para a qual você deseja que o modelo preveja valores futuros. Para experimentos de séries temporais, o alvo precisa conter dados numéricos, por exemplo, vendas ou estoque.

Se você estiver usando grupos na previsão de séries temporais, os modelos preverão um valor-alvo por grupo por etapa de tempo na janela de previsão. Se você não estiver usando grupos, seus modelos treinados preverão um valor alvo para cada etapa de tempo na janela de previsão.

Índice de datas

O índice de data rastreia as métricas da série temporal em um intervalo de tempo contínuo (etapa de tempo). Você precisa decidir a etapa de tempo em um estágio inicial: com que frequência precisa prever valores futuros?

Especificamente, o índice de datas é uma coluna que aparece em seus conjuntos de dados de treinamento e aplicação para problemas de séries temporais. O índice de datas determina a estrutura de ambos os conjuntos de dados de aplicação; cada linha representa uma etapa no tempo (ou, com grupos, uma etapa no tempo para cada agrupamento exclusivo).

Quando o usuário adiciona o conjunto de dados de treinamento em um experimento de série temporal, as possíveis colunas de índice de datas são automaticamente identificadas e apresentadas ao usuário como Ideias no nível da coluna. Você pode identificá-los a partir da ideia Índice de datas possíveis na exibição do esquema.

Grupos

Grupos são recursos que contêm informações categóricas para as quais você deseja gerar previsões separadamente. Exemplos clássicos de grupos incluem o número da loja e o produto, que poderiam ter sido usados para organizar os dados de um alvo, como vendas. Ao selecionar o número da loja e o tipo de produto como grupos, seus modelos de séries temporais fornecerão previsões para cada valor individual nessas colunas. Por exemplo, com uma meta de vendas, se você tiver três números de loja — 1, 2 e 3 — e dois tipos de produto — mercearia e hortifrúti — seu modelo gerará previsões de vendas para cada combinação única desses valores.

Você deve incorporar grupos ao seu problema de série temporal se tiver os dados e precisar de previsões individuais por categoria. Outra vantagem dos grupos é que os modelos podem aprender globalmente, compreendendo melhor os padrões que existem entre os diferentes agrupamentos que você define.

Você pode configurar os grupos a serem usados para cada versão de experimento. Se você não especificar os grupos, mas eles forem identificados no conjunto de dados de treinamento, o treinamento usará os grupos.

Os grupos são identificados por valores duplicados na coluna de índice de data, por exemplo, para uma data de 14/1/2025, você tem dois registros: um para a loja A e outro para a loja B.

Cada grupo em um experimento de série temporal, inclusive o alvo sozinho, é considerado uma série temporal separada no conjunto de dados. Consulte O que é uma série temporal?.

Horizonte de previsão

O horizonte de previsão especifica a distância que você deseja prever no futuro. O horizonte de previsão é composto pela janela de previsão (o número de etapas de tempo para as quais você precisa de previsões) e pelo intervalo de previsão (um número opcional de etapas de tempo após os dados históricos para os quais você não quer previsões).

Você define a janela de previsão e o tamanho do intervalo ao configurar uma versão de experimento. Esses valores são usados durante o treinamento do modelo e ao gerar previsões de modelos implementados como implementações de ML.

A janela de previsão é o número de etapas de tempo para as quais você deseja fazer previsões para o futuro. Por exemplo, se a etapa de tempo for de um dia e você quiser fazer uma previsão de vendas para as próximas duas semanas, deverá definir a janela de previsão como 14.

O intervalo de previsão é o período de tempo no futuro para o qual você não precisa de previsões. A definição de um intervalo de previsão é opcional, pois você pode ou não precisar dele. O intervalo de previsão começa no final dos dados históricos de treinamento registrados que você forneceu. A janela de previsão começa onde termina o intervalo de previsão.

Por exemplo, você pode querer prever vendas futuras, mas só está interessado em vendas futuras para datas posteriores a uma semana após o término dos dados de entrada. Nesse caso, com uma etapa de tempo de dias, você poderia definir o tamanho do intervalo de previsão para sete etapas de tempo.

A janela de previsão selecionada, além da quantidade de dados de treinamento que você tem, limita a distância que você pode prever no futuro. Para obter mais informações, consulte Janela de previsão máxima.

Covariáveis

Em problemas de séries temporais, os recursos são frequentemente chamados de covariáveis. Semelhante a outros problemas de aprendizado de máquina, as covariáveis são as outras variáveis que você suspeita que tenham influência no resultado do alvo. Cada covariável é representada como uma única coluna em seu conjunto de dados de treinamento.

Na previsão de séries temporais, há vários tipos de covariáveis e eles têm algumas distinções importantes:

  • Covariáveis estáticas: colunas que não variam ao longo de uma série temporal. As covariáveis estáticas são aplicáveis em experimentos de séries temporais em que grupos estão sendo usados. Por exemplo, suponha que você tenha grupos para Produto e Número da loja, e que haja um recurso Desconto padrão. Se o Produto A na Loja 1 tiver um desconto padrão de 10% e o Produto B na Loja 2 tiver um desconto padrão de 20%, o Desconto Padrão seria uma covariável estática. Ou seja, ele não varia dentro dos dados do grupo em que aparece.

    As covariáveis estáticas são detectadas automaticamente a partir de recursos históricos que você inclui no experimento. Você não precisa indicar quais recursos são covariáveis estáticas.

  • Covariáveis passadas: variáveis dependentes do tempo que estão disponíveis apenas nos dados históricos e que variam entre esses dados. As covariáveis passadas são detectadas automaticamente a partir dos recursos históricos que você inclui no experimento. Você não precisa indicar explicitamente quais recursos são covariáveis passadas.

  • Covariáveis futuras: as covariáveis futuras, também conhecidas como recursos futuros, são variáveis dependentes do tempo para as quais você conhecerá os valores futuros dentro do horizonte de previsão. Ao usar covariáveis futuras no treinamento, você precisa indicá-las como recursos futuros na configuração do treinamento.

Recursos futuros

Com os recursos futuros, você pode fornecer dados adicionais aos seus modelos sobre informações futuras que já conhece ou que pode razoavelmente esperar. Em particular, você tem acesso a valores futuros para esse recurso, abrangendo o horizonte de previsão selecionado. Ao definir recursos futuros, você precisa fornecer dados históricos e futuros.

Por exemplo, para um modelo que prevê métricas que poderiam ser influenciadas por descontos futuros oferecidos por uma loja, você poderia incluir os descontos observados historicamente, bem como os descontos para períodos de tempo futuros dentro da janela de previsão. Outros exemplos de recursos futuros poderiam ser informações sobre o clima ou o calendário.

Outros conceitos importantes

Esta seção descreve conceitos que são relevantes para o seu problema de série temporal, mas que não são configurados diretamente em um experimento ou implementação de ML. Essas são propriedades definidas pelos seus dados ou por outras propriedades que você configura para o modelo.

Etapas de tempo

A etapa de tempo é definida pelo conjunto de dados de treinamento e é importante tanto para o treinamento quanto para as previsões.

No conjunto de dados de treinamento, a etapa de tempo é o intervalo em que os dados no índice de datas são registrados. Por exemplo, a etapa de tempo pode ser diária, a cada hora, a cada minuto ou a cada segundo.

É importante estar ciente da etapa de tempo usada em seus dados de treinamento. Outros parâmetros de experimento definidos por você, como a janela de previsão e o tamanho do intervalo de previsão, seguirão essa etapa de tempo.

Após implementar o modelo de dados, os dados de aplicação para os quais você deseja criar previsões precisarão seguir a mesma etapa de tempo definida no conjunto de dados de treinamento.

Qualidade

Quando você seleciona um conjunto de dados de treinamento, o sistema infere a etapa de tempo usada. Caso haja valores ausentes ou lacunas no índice de datas, colunas como destino, grupos e covariáveis poderão ser interpoladas automaticamente pelo sistema. No entanto, se os seus dados contiverem intervalos de tempo inconsistentes a ponto de serem detectadas etapas de tempo diferentes, os dados deverão ser corrigidos primeiro. Por exemplo, se você tiver vários meses de dados registrados uma vez por dia, mas houver uma seção em que os dados são registrados de forma consistente semanalmente, o conjunto de dados não poderá ser usado porque serão detectadas várias etapas de tempo.

Janela de aplicação

A janela de aplicação, ou período de retrospectiva, é a parte dos dados de treinamento que o algoritmo pode usar para fornecer as previsões para a janela de previsão especificada.

A janela de aplicação é calculada e definida pelo sistema. Ele é medido em etapas de tempo. A janela de aplicação é definida pelo que você definiu como janela de previsão e intervalo (horizonte de previsão). O tamanho da janela de aplicação é exibido no painel de configuração do experimento e no Resumo do treinamento do modelo, após executar pelo menos uma versão do experimento. Também é exibido em um Esquema de modelo de implementação de ML ao criar ou editar uma configuração de previsão em lote.

A janela de aplicação é identificada automaticamente a partir de sua configuração de treinamento. Para gerar previsões para uma determinada janela de previsão, você precisa fornecer os dados históricos que abrangem pelo menos a janela de aplicação. Isso é fornecido em seu conjunto de dados de aplicação. Consulte Preparando um conjunto de dados de aplicação.

Janela de previsão máxima

A janela máxima de previsão é estimada à medida que você configura o experimento de série temporal. Depois que você executa uma versão do treinamento, a janela máxima de previsão é confirmada com certeza. A janela de previsão máxima é exibida como Previsão máxima estimada ou Previsão máxima em Com base nos seus dados, quando o usuário abre Alvo e tipo de experimento no painel de configuração do experimento. A janela máxima de previsão é o número máximo de etapas de tempo para as quais você pode gerar previsões, considerando a janela de previsão escolhida, a quantidade de dados históricos fornecidos e o tamanho mínimo de amostra esperado pelo sistema. Quanto mais dados históricos você fornecer, maior será sua capacidade de previsão. No entanto, para gerar previsões confiáveis, é importante selecionar uma janela de previsão razoável.

A janela máxima de previsão pode ser de até 180 etapas de tempo.

Tempo de corte da previsão

O tempo de corte da previsão é especialmente importante ao definir o conjunto de dados a ser aplicado durante as previsões. O tempo de corte da previsão é a última data da amostra para a qual você tem um valor-alvo. Essencialmente, as datas após esse horário limite são as datas para as quais você deseja gerar previsões.

O que é uma série temporal?

Na previsão de séries temporais do Qlik Predict, cada grupo — incluindo o alvo isoladamente — é considerado uma série temporal separada dentro do conjunto de dados de treinamento. Por exemplo, suponha que seu conjunto de dados de treinamento contenha métricas de vendas. Essas métricas de vendas são definidas para cada loja e tipo de produto. Com as colunas Loja e Tipo de produto definidas como grupos, há três séries temporais no conjunto de dados de treinamento.

Preparando um conjunto de dados de treinamento

Para previsões de séries temporais multivariadas, o conjunto de dados de treinamento precisa conter as colunas a seguir:

  • Índice de datas

  • Coluna de destino

  • Colunas de grupo (opcional)

  • Colunas de recursos (opcional — sem recursos, você está treinando um modelo de previsão univariada)

Ilustrações mostrando as colunas e os dados necessários para os conjuntos de dados de treinamento de séries temporais. São descritos cenários sem grupos, com um grupo e com dois grupos.

Diagrama linear que descreve os componentes necessários e a linha do tempo de um conjunto de dados de treinamento para um modelo de previsão de série temporal.

Coluna de índice de data

Você precisa de um índice de datas que contenha datas completas ou carimbos de data/hora. Essa coluna é o índice cronológico ao longo do qual as métricas de alvo e covariável são rastreadas. A coluna de índice de data organiza as medições baseadas em tempo sequencialmente ao longo de um intervalo de tempo consistente (a etapa de tempo).

A coluna de índice de datas é organizada da seguinte forma, dependendo de você estar ou não usando grupos:

  • Sem grupos: um único registro para cada etapa de tempo. Por exemplo, com uma previsão diária, cada linha representa um único dia.

  • Com grupos: uma ou mais entradas duplicadas para cada etapa de tempo, dependendo dos grupos usados.

Em um conjunto de dados de treinamento multivariado, haverá uma ou mais entradas duplicadas para cada etapa de tempo, dependendo dos grupos utilizados. Há flexibilidade na etapa de tempo utilizada; você pode, por exemplo, registrar datas uma ou mais vezes diária, semanal ou mensalmente, e assim por diante.

Valores faltantes ou registrados de forma inconsistente nessa coluna às vezes são aceitáveis, se puderem ser interpolados. No entanto, seus valores de índice de data não podem conter várias etapas de tempo diferentes. Por exemplo, se o intervalo for determinado como sendo de uma vez por dia, mas em algum momento for identificado um intervalo de duas vezes por dia, ocorrerá um erro durante o treinamento.

Coluna de destino e colunas de grupo

Seu conjunto de dados precisa ter uma coluna de destino contendo uma métrica numérica que você deseja prever. Um exemplo comum são as vendas.

Se estiver usando grupos, você fornece valores-alvo históricos para cada valor possível nos grupos que adicionar. Por exemplo, se o alvo for Vendas e você adicionar um grupo Número da loja que contenha dados da Loja A e da Loja B, o conjunto de dados precisará incluir dois registros separados para cada etapa de tempo: um com o valor de vendas da Loja A e outro com o valor de vendas da Loja B.

Colunas de recursos

Você pode treinar um modelo de série temporal sem nenhuma covariável. No entanto, se você incluir covariáveis, forneça uma coluna no conjunto de dados para cada recurso. Os dados de recursos geralmente devem ser dados registrados historicamente, a menos que você esteja adicionando recursos futuros. As colunas de recursos futuros podem conter dados históricos e futuros. Você só deve incluir dados de recursos futuros no conjunto de dados de treinamento se tiver certeza de que os valores futuros dessa coluna serão conhecidos quando criar as previsões.

Acompanhe quais recursos você usará como recursos futuros, pois será necessário selecioná-los como tal na configuração do treinamento.

Volume de dados

Seu conjunto de dados precisa conter registros suficientes. O volume de seus dados históricos desempenha um papel importante na determinação de quão longe no futuro você pode prever. A janela de previsão desejada também afeta a quantidade de dados históricos de que você precisa.

Em geral, mais dados históricos são melhores do que menos. No entanto, os dados precisam ser de boa qualidade e capturar as tendências desejadas. Se os dados fornecerem informações irrelevantes ou contiverem imprecisões, não será útil incluí-los no modelo. Considere um equilíbrio entre otimizar o volume e manter a qualidade e a relevância.

Exemplos

Preparando um conjunto de dados de aplicação

Depois de implementar um modelo de série temporal, você precisa desenvolver um conjunto de dados aplicável para o qual as previsões serão feitas.

Conjunto de dados de aplicação — Requisitos e validação

Para modelos de séries temporais, o conjunto de dados de aplicação precisa:

  • Colunas e cabeçalhos de colunas para todas as colunas incluídas no conjunto de dados de treinamento.

  • A mesma etapa de tempo que o conjunto de dados de treinamento.

  • Tantos ou mais registros de dados históricos (por alvo e grupo) antes do tempo limite da previsão quanto o número de registros na janela de aplicação do modelo. Eles precisam ser registros completos que contenham o carimbo de data ou hora historicamente observado, o alvo e os valores de covariáveis. A janela de aplicação é determinada pela janela de previsão e pelo intervalo configurada durante o treinamento — quanto mais tempo no futuro você precisar prever, mais dados históricos serão necessários no conjunto de dados de aplicação para executar previsões.

  • Registros de todas as etapas de tempo futuras em seu horizonte de previsão. Para esses registros futuros, inclua apenas os valores da coluna de índice de datas, bem como quaisquer recursos futuros. Deixe os valores das outras colunas em branco.

Nota de dicaA maioria dos requisitos de dados históricos para o conjunto de dados que você aplica é para especificar volumes de dados mínimos aceitáveis. Você sempre pode fornecer mais do que o necessário. Quando o modelo gera previsões, são usados apenas os registros necessários para cobrir a janela de aplicação.

Ilustrações que mostram as colunas e os dados necessários para aplicar conjuntos de dados usados para gerar previsões de modelos de previsão de séries temporais. São descritos cenários sem grupos, com um grupo e com dois grupos.

Diagrama linear que descreve os componentes necessários e o cronograma de um conjunto de dados de aplicação usado para gerar previsões com um modelo de previsão de séries temporais.

Exemplos

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!