理解机器学习
机器学习是使用数学算法识别数据中的模式,然后使用这些模式进行预测的实践。
一个简单的例子:预测销售额
为了更好地理解机器学习,让我们看一个预测下一季度产品销售额的简单示例。我们可能知道,这种产品的销售受到产品广告花费多少的影响。通过查看前几个季度的数据,我们知道:
-
在电视上为该产品做广告花费了多少钱(以千美元计)。
-
销售额是多少(以百万美元计)。
当我们绘制数据时,很明显,在电视上为我们的产品做广告的钱越多,我们的销量就越高。
为了预测下一个业务季度的销售收入,我们可以根据历史数据拟合一个函数:
根据我们在下一个业务季度预算用于电视广告的金额,我们可以根据该金额评估函数。假设我们计划下一季度在电视广告上花费 $225,000。对 225 的函数进行评估,得出 17.7,我们可以预测下一季度的销售额为 1770 万美元。
为了进一步提高预测的准确性,我们可以尝试找到一个更符合图中所示历史数据的函数,并基于该函数进行预测。
在这个例子中,我们只看了电视广告的花费金额。我们还可以考虑影响未来销售的其他因素。例如,我们可以将销售额作为电视广告支出、广播广告支出和报纸广告支出三个变量的函数,而不是将销售额单独作为电视广告花费的函数。我们可以使用任意多的变量,但总体思路是一样的。
机器学习概念
从数据的角度来看,机器学习问题被简化为用历史数据编译表。我们在表中有一列表示我们想要预测的内容,在我们之前的示例中是销售额。在机器学习的语言中,此列称为目标。其他列称为特征,用于预测目标列的值。这些特征是可能有助于目标结果的变量。机器学习背后的基本思想是:
给定一个数据集,我们找到一个适合该数据的函数,以便我们可以预测目标列的值将被赋予特征列的值。
已经开发了几种复杂的机器学习算法来解决不同类型的机器学习问题。当我们向机器学习算法提供数据并让它学习模式时,我们说我们正在训练机器学习算法。
机器学习问题分为回归问题或分类问题,这取决于我们要预测的目标是数值还是分类值。查看 分类问题 和 回归问题 中的示例。
自动化机器学习
通过自动机器学习,在对历史数据进行训练期间,可以自动找到拟合最佳的函数。您可以轻松上传数据集,选择目标,然后按下按钮开始训练。
然而,只有在输入良好的情况下,才能获得良好的预测输出。机器学习实验需要一个定义明确的机器学习问题和一个设计用来回答这个问题的数据集。要开始第一个实验,请执行以下步骤:
- 定义机器学习问题
使用结构化框架将您的业务用例转化为具体问题。
- 准备训练数据集
收集与用例相关的高质量数据。
- 创建自动机器学习实验
当准备工作完成后,你就可以开始实验了。