跳到主要内容 跳到补充内容

分类问题

目标列是分类列的问题称为分类问题。二分类问题有两种可能的类别,如“是”或“否”,而多类别分类问题则有两种以上的可能类别。

以下示例解释了两种类型的分类问题。他们还讨论了定义机器学习问题时的一些注意事项。

二分类示例:客户流失

在本例中,一家公司提供了基于订阅的模型。已收集所有过去和当前客户的数据。客户已被标记为已取消订阅(大量订购)或未取消。

下表显示了收集的数据。每行表示一个唯一的客户,列表示描述该客户的不同特征。最后一列是我们的目标。这是一个二进制列,指定客户是否已取消其订阅(是或否)。

收集的数据样本

带有训练数据样本的表格。

我们可以使用这个数据集来训练机器学习算法,以预测任何给定的客户是否会流失。然而,这种方法存在一些问题:

  • 数据集比较了新客户和老客户,没有关于尚未取消的客户是否会取消的信息。

  • 新获得的客户可能有一些特征,表明他们可能会流失(也许我们知道,在第一个月不怎么买东西的20多岁男性往往会在不久后取消订阅)。然而,由于它们是新的,尚未取消,我们正在训练机器学习算法,以将这些特征与不会取消的忠实客户相关联。

通过准确地定义客户流失以及如何为问题准备数据集来避免这些缺陷。了解如何以准确和适当的方式提出商业问题,以便通过机器学习解决这些问题,这是需要实践的。在开始商业应用程序的机器学习时,看到如何做到这一点的好例子和坏例子都很有帮助。如果您不确定如何为机器学习构建业务问题框架,请考虑在业务度量的定义中加入时间框架。这一策略通常会很费时。

包括时间因素

让我们考虑在问题中加入时间。我们可以研究哪些客户将在前六个月内取消服务。例如,我们可以利用他们在第一个客户月的行为来预测他们是否会在前六个月内流失。现在我们有了一种精确的定义客户流失的方法,一种包含时间框架的方法。我们可以这样聚合数据集:

包含时间因子的数据集

带有训练数据样本的表格。

这里,每一行代表一个客户,但现在我们只包括历史上至少持续了六个月的客户。对于他们中的每一个人来说,他们第一个月的购买数量和总花费被用来预测他们六个月后是否会大量生产。就这个问题而言,他们是否在最初的六个月后就开始流失变得无关紧要。目标列只告诉我们他们是否在前六个月内取消了订阅。

现在,我们有了一个训练数据集,可以在其中对行进行比较。一旦我们在这个数据集上训练了一个模型,我们就可以选择订阅了至少一个月的任何新客户,并使用他们第一个月的行为和我们训练的模型来预测他们在前六个月是否会流失。

多类别分类示例:鸢尾花瓣

在这个例子中,我们有关于鸢尾花的大量样本的数据。对于每一朵花,我们都记录了它们的花瓣和萼片的长度和宽度,以及它所属的鸢尾花种类。将来,当我们遇到一种新的鸢尾花时,我们希望能够根据它的萼片长度、萼片宽度、花瓣长度和花瓣宽度来预测它是哪种鸢尾花。

收集的数据样本

带有训练数据样本的表格。

我们可以将收集到的数据提供给机器学习算法,该算法将函数与历史数据相匹配。这样的函数将基于其他四个变量的值输出预测的物种类型。输出是一组离散类别中的一个类别。

请注意,我们的工作假设是,我们对未来进行预测的数据在统计上与我们训练算法的数据相似。如果训练数据集中只有三种不同的鸢尾花,那么我们只能使用这种训练算法对这些物种的花朵进行预测。我们不能指望机器学习算法对其未经训练而无法从训练数据集中识别的模式进行预测。

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!