了解机器学习
机器学习是使用数学算法识别数据中的模式,然后使用这些模式进行预测的实践。
一个简单的示例:预测销售额
为了更好地了解机器学习,我们来看一个预测下个季度产品销售额的简单示例。我们可能知道该产品的销售额受产品广告投入金额的影响。通过查看前几个季度的数据,我们知道:
-
在电视上为该产品做广告花费了多少钱(以千美元为单位)。
-
销售额是多少(以百万美元为单位)。
当我们绘制数据时,很明显,在电视上为我们的产品做广告花费的钱越多,我们卖出的就越多。
销售额与电视广告支出关系图

为了预测下个业务季度的销售收入,我们可以对历史数据拟合一个函数:
对数据拟合线性函数

根据我们预算在下个业务季度用于电视广告的金额,我们可以在对应于该金额的值处计算该函数。假设我们计划下个季度在电视广告上花费 225,000 美元。在 225 处计算该函数得到 17.7,我们可以预测下个季度的销售额为 17.7 百万美元。
计算该函数以预测特定广告支出金额的销售额

为了进一步提高预测的准确度,我们可以尝试找到一个更好地拟合历史数据的函数(如图所示),并基于该函数进行预测。
更好地拟合数据的函数

在这个示例中,我们只查看了在电视广告上花费的金额。我们还可以考虑影响未来销售额的其他因素。例如,我们可以将销售额作为电视广告支出、广播广告支出和报纸广告支出这三个变量的函数,而不是仅仅将销售额作为电视广告支出的函数。我们可以使用任意数量的变量,但总体思路是相同的。
机器学习概念
从数据的角度来看,机器学习问题被简化为编译包含历史数据的表格。我们在表格中有一列代表我们想要预测的内容,在我们之前的示例中是销售额。在机器学习的语言中,此列称为目标。其他列称为特性,用于预测目标列的值。特性是可能对目标结果有贡献的变量。机器学习背后的基本思想是:
给定一个数据集,我们找到一个拟合该数据的函数,以便在给定特性列的值的情况下,我们可以预测目标列的值。
已经开发了几种复杂的机器学习算法来解决不同类型的机器学习问题。当我们将数据输入机器学习算法并让其学习模式时,我们称之为训练机器学习算法。
在 Qlik Predict 中,机器学习问题分为分类、回归或时间序列问题,具体取决于:
自动化机器学习
借助自动化机器学习,在对历史数据进行训练期间会自动找到最佳拟合函数。您可以轻松上传数据集,选择目标,然后只需按一下按钮即可开始训练。
但是,只有输入良好,才能获得良好的预测输出。机器学习实验需要一个明确定义的机器学习问题以及旨在回答该问题的数据集。要开始您的第一个实验,请按照以下步骤操作:
- 定义机器学习问题
使用结构化框架将您的业务用例转化为特定问题。
- 准备训练数据集
收集与您的用例相关的高质量数据。
- 创建自动化机器学习实验
准备工作完成后,您就可以开始进行实验了。