跳到主要内容 跳到补充内容

创建和配置时间序列实验

第一步是创建和配置时间序列实验。您将使用之前上传的训练数据集来训练模型,直到它准备好部署以进行预测。

创建新实验

  1. 转到 分析 活动中心的“创建”页面,然后选择 ML 实验

  2. 输入实验名称,例如销售预测

  3. (可选)添加描述和标记。

  4. 为您的实验选择一个空间。它可以是您的个人空间或共享空间。

  5. 单击创建

  6. 选择训练数据集文件 ML - Multivariate forecasting - training.csv

已选择时间序列训练数据集的 ML 实验。

选择时间序列训练数据集的新 ML 实验中的模式视图

配置时间序列预测参数

步骤 1:选择目标

首先定义一个目标列。我们想要预测未来的销售额,因此请选择该列作为目标。

  • 表格行 架构视图 中,点击 sales 旁边的单选按钮。一个目标 目标 图标替换了按钮。

选择用于时间序列实验的目标列。

选择用于时间序列实验的目标列

步骤 2:将实验配置为时间序列实验

  1. 单击 模式 视图配置以展开实验配置面板(若它尚未打开)。

  2. 展开目标及实验类型

  3. 实验类型下,选择时间序列。此选项仅在选择高基数数值列后出现。

步骤 3:选择日期索引

接下来,您需要选择要使用的时间序列索引列。

  1. 仍在配置面板的目标及实验类型部分中,在日期索引下,点击下拉菜单以展开它。

  2. 选择 date

实验配置面板,其中时间序列被选为实验类型,date被选为日期索引列。

选择实验类型和用于实验的日期索引

在您选择日期索引后,面板中出现了一些新信息。您现在可以配置未来功能,并调整预测设置。

步骤 4:选择组

本教程的训练数据集专为多元预测而设计。通过多元预测,目标是预测目标值以及与目标直接相关的其他维度。例如,在本教程中,数据含有针对每个商店和产品系列单独跟踪的销售指标。多元预测允许您将这些维度中的每一个(否则可能需要作为单独模型进行训练)组合到一个实验中,从而使模型能够更多地了解不同数据群组之间的模式和交互。

您可以通过从训练数据中选择最多两列作为组来配置多元实验。

本教程的目标是训练模型以学习和预测销售额以及商店编号和产品系列,因此请选择这两列作为组。

  • 选择 store_nbrfamily 作为

信息注释 如果未明确选择任何组,模型将自动搜索合适的组,仅使用分类特性。一旦识别出有效组,该过程将进入训练阶段。因此,如果我们希望系统自动将 store_nbr 检测为有效组列,则必须将其标记为分类特性。

步骤 5:配置协变量(特性)

在机器学习中,“协变量”和“特性”这两个术语经常互换使用,但在 Qlik Predict 中的时间序列预测中,“协变量”一词更常用且更具描述性。在多元时间序列模型中,有三种类型的协变量:静态、过去和未来。

除了组、日期索引和未来特性之外,静态和过去的协变量也是您在实验训练中包含的特性之一。静态和过去的协变量由系统自动识别。您无需配置这些,只需将它们作为特性包含在内(并避免将它们配置为未来特性)即可。

未来协变量,或未来特性,也指您在训练中包含的特性。未来协变量是具有您将提前知晓的未来数据的特性 - 特别要指出的是,您可以访问此功能, 特性在您选定的预测范围内的未来值。对于未来特性,您还需要知道模型训练所用的历史时间范围内的数据值。

除了在训练特性列表中包含未来特性之外,您还需要在训练配置面板中将其配置为未来特性。在预测时,模型将需要涵盖预测范围的未来特性数据,以生成准确的预测。

在训练数据中,onpromotion 特性跟踪在指定日期有多少产品以促销价格折扣。这是提前已知的信息,并且有可用的未来数据,因此可以将其用作未来功能。

  • 下拉菜单下方,展开未来功能并选择 onpromotion

总结:

  • onpromotion 已被选作未来特性。

  • 除了日期索引,没有选择其他协变量进行训练。

步骤 6:设置预测窗口和间隔

在您选择日期索引后,面板中已出现了一些新信息。

转到基于您的数据部分。本部分概述了您的历史数据的时间范围,并允许您配置希望进行预测的未来日期范围。

估计的最大预测为 180 天。此估计基于可用的历史数据,其中预测窗口是可用总历史数据的一小部分。它表示您估计能够预测目标的未来时间步长(在本例中为天)的最大数量。在运行某个版本的训练后,将获取更多信息,此估算值将被明确的最大预测值取代。

预测窗口大小设置您希望预测未来多少个时间步长。例如,在本教程中,将预测窗口设置为 7 表示模型将预测未来一周的目标日期。

预测间隔大小设置训练数据集结束后不需要预测的时间步长数。例如,您可能只想预测未来三天或更长时间的销售额。

  1. 基于您的数据部分中,将预测窗口大小设置为 7 个时间步长。

  2. 预测间隔大小设置为 3 个时间步长。

信息注释预测范围是预测窗口加上预测间隔大小,以时间步长衡量。在这种情况下,预测范围为 10,这表示在预测时,您正在预测未来 10 个时间步长,即使该预测间隔可能没有记录任何实际值。

实验配置面板,显示已配置的组、未来特性以及所有选定特性的摘要。

实验配置面板,显示已配置的组、未来特性以及所有选定特性的摘要。

下图说明了时间序列预测概念以及它们如何与实验配置相关。有关时间序列预测概念的更多信息,请参阅使用多元时间序列预测

简化图,概述了 Qlik Predict 中时间序列预测问题的组成部分。

确认其他设置

既然您已完成时间序列配置,请审阅配置面板中剩余的训练设置。

  • 特性下,您可以看到选择了四个特性。

  • 算法下,您可以看到所有可用算法均已被选中。

训练实验

配置完成,我们准备开始训练。

  • 在实验窗口右下角,单击运行实验

当实验完成运行后,我们可以继续下一步,即检查生成的模型度量。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!