创建新要素列
特性设计是从当前特性列创建新特性列的过程。它可以帮助您从为回答业务问题而收集的源数据中获得额外的预测能力。
例如,由于基数较高,客户的地址将被排除在训练数据之外。我们可以设计一个距离列,而不是使用地址。如果我们知道客户地址以及不同的商店位置,就可以计算到商店的距离。新列将具有一个数值,可用于揭示数据中的可测量模式。
您可以对数据集执行特性设计,为在 AutoML 中使用做准备。此外,AutoML 提出了可以从现有特性自动生成的新特性。
查看数据集中的特性,以确定可能存在的问题或可以进行的改进。设计好的特性需要技能和商业经验。您希望以与目标列直接关联的方式表达特性。
需要考虑的事项:
-
是否应将时间因素纳入特性?
-
变化率是否重要?
-
是否应该对特性进行标准化,以说明数据子集之间的差异?
-
空值是否有意义?
自动设计特性
使用自动特性设计,可以从现有特性中自动创建新特性。
AutoML 从包含日期和时间信息的列中生成自动设计特性。这些新特性将列值的每个组成部分分离为各自的特性。
此外,可以对包含自由文本的列应用特殊处理。将原始的自由文本特性转换为新的特性以改进模型训练。
在训练模型时,自动设计特性可提高模型的预测和分析价值。有关更多信息,请参阅自动特性设计。
示例:设计特性
使用以下示例开始讨论如何设计能够增强数据预测性的特性。
销售机会会结束吗?
目标列是销售机会是否已结束(是或否)。
-
原始特性:会议次数
-
替代特性:每月会议或特定阶段的会议次数
将度量转换为会议频率可以更好地解释变化。在销售过程的特定阶段衡量会议可以更好地表达销售势头并说明周期。
预测未来交易金额
目标列是下一笔交易的金额。
-
原始特性:最后一个订单的金额
-
替代特性:平均订单金额或订单金额的百分比变化
平均金额为您提供了更广泛的订单行为描述。购买模式的变化提供了一个标准化的价值。
客户会流失吗?
目标列是客户是否会流失(是或否)。
-
原始特性:客户情绪
-
替代特性:客户情绪的变化或当前情绪的持续天数
衡量情绪的变化更有可能导致行动。天数表示当前状态的持续时间。
员工是否自愿离职?
目标列是员工是否将离职(是或否)。
-
原始特性:薪酬
-
替代特性:与同行相比的薪酬或与行业平均水平相比的薪酬
将薪酬与同事进行比较,更符合员工的经验或情感。与行业平均工资的比较更符合员工的机会成本。
潜在客户会转化为商机吗?
目标列是潜在客户是否已转换(是或否)。
-
原始特性:您如何找到我们?
-
替代特性:已回答(是或否)
行动才是最重要的,而不是答案。注意,在这种情况下,空值意味着什么:不作为。
日期
通过 AutoML 的自动特性设计功能,日期和时间戳的组成部分可以自动解析为单独的列。
还可以通过多种其他方式设计日期,以在一个数据集中创建多个特性,例如:
-
将日期聚合为季节、季度或学期。
-
计算日期差,例如,自上次购买以来的天数。