跳到主要内容 跳到补充内容

定义机器学习问题

将一个业务用例转化为一个具体的、可操作的机器学习问题可能具有挑战性。遵循结构化框架以避免常见的陷阱,并生成良好的预测模型。

该框架描述了如何定义机器学习问题,以及如何收集一个结构良好的数据集,以备使用。有关准备数据集的详细信息,请参阅准备好数据集进行训练

该框架由四部分组成:

  • 事件触发器

  • 目标

  • 特征

  • 预测点

事件触发器

事件触发器是触发创建新预测的动作或事件。每个事件触发器对应于一行数据。

目标

目标是您试图预测的值。它必须在如何定义结果的价值和确定价值的时间框架方面都是具体的。定义结果和范围取决于业务上下文以及可用数据。确保目标与业务环境相关,并根据预测值考虑要采取的行动。

目标在数据集中的一列中表示,用于训练机器学习算法。

特征

这些特性是数据集中用于预测目标值的其他列。它们是关于哪些变量会影响目标的假设。机器学习算法使用这些特征来学习训练期间的一般模式,并对新的数据行进行预测。

特征列构成了训练数据集的大部分,其中每个特征都表示为单个列。特征必须聚合到事件触发级别或更高级别。

特征可以是固定的,这意味着它们在事件触发时或之前是已知的,或者依赖于窗口的,这就意味着数据是在事件触发之后但在预测点之前收集的。

预测点

预测点是停止收集特征数据并预测每行目标的指定时间。决定预测点应该落在哪里是一种平衡,即准确度预测晚到足以收集到质量特征数据,而行动能力预测早到足以采取行动影响结果。

事件触发和预测点之间的时间是数据累积窗口。这是用于收集特征数据的时间。预测点和地平线之间的时间是行动窗口,这是用于对预测内容采取行动的时间。预测点可以落在事件触发器和目标地平线之间的任何位置。

:结构化框架

以下示例显示了结构化框架如何用于不同的业务用例。有关逐步应用框架的深入示例,请参阅应用结构化框架:客户流失示例

客户终身价值

  • 事件触发器:客户第一次下单

  • 目标前三年的订单总额

    • 数字结果:美元金额

    • 该范围基于平均客户生命周期长度

  • 特征潜在客户来源、首次订单金额、首次订单使用的折扣(是或否)、发货状态、发货地区、首次订单中的产品数量

  • 预测点:第一次订购后三个月

  • 机器学习问题:“预测客户第一次下单后三个月,未来 33 个月他们的订单总额将是多少”

客户回购

  • 事件触发器:客户下单

  • 目标六个月内再次下单

    • 二进制结果:是或否

    • 数据表明,90% 的回购客户在六个月或更短的时间内完成回购

  • 特征流量来源、以前的订单数量、使用的折扣、发货状态、发货地区、订购的产品数量、打开的发货通知电子邮件(是或否)、10 天内返回站点、注册营销电子邮件(是/否)

  • 预测点:下单后一周

  • 机器学习问题:“预测客户下单后一周,他们会在六个月内再次下单吗”

销售线索转换

  • 事件触发器:创建销售线索

  • 目标在创建后的 12 个月内转换为封闭赢

    • 二进制结果:是或否

    • 基于销售周期历史长度的范围

  • 特征潜在客户来源、行业、公司规模、前 30 天的接触点数量、30 天内安排的会议(是或否)、准确的电话号码(是或否)

  • 预测点:创建潜在客户后 30 天

  • 机器学习问题:“预测潜在客户创建后 30 天,该潜在客户是否会在未来 11 个月内转化为已赢得的机会”

学生毕业

  • 事件触发器:学生被录取

  • 目标项目开始后六年内学生毕业

    • 二进制结果:是或否

    • 地平线基于毕业时间的历史长度

  • 特征高中类型、高中 GPA、SAT/ACT 分数、入学考试分数、从高中到入学校园的距离、奖学金水平、家长教育水平、第一学期 GPA、第一学期学分数

  • 预测点:第一个注册学期结束

  • 机器学习问题:“预测第一学期结束时,学生会在第六年结束时毕业吗”

每月销售额

  • 事件触发器:每月的第一天

  • 目标当月销售额(单位)

    • 数字结果:售出单位数量

    • 地平线基于日历月

  • 特征产品类型、月份名称、季度、去年同月销售额、两年前同月销售额,上月销售额、平均折扣 %、营销支出

  • 预测点:每月的第一天

  • 机器学习问题:“在月份的第一天预测,到月底的总销售量是多少”

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!