创建新要素列
特征工程是从当前特征列创建新特征列的过程。它可以帮助您从为回答业务问题而收集的源数据中获得额外的预测能力。
例如,由于基数较高,客户的地址将被排除在训练数据之外。我们可以设计一个距离列,而不是使用地址。如果我们知道客户地址以及不同的商店位置,就可以计算到商店的距离。新列将具有一个数值,可用于揭示数据中的可测量模式。
与不同商店之间距离的新列

查看数据集中的特征,以确定可能存在的问题或可以进行的改进。设计好的特征需要技能和商业经验。您希望以与目标列直接关联的方式表达特征。
需要考虑的事项:
-
是否应将时间因素纳入特征?
-
变化率是否重要?
-
是否应该对特征进行标准化,以说明数据子集之间的差异?
-
空值是否有意义?
:工程特征
使用以下示例开始讨论如何设计能够增强数据预测性的特征。
销售机会会结束吗?
目标列是销售机会是否已结束(是或否)。
-
原始特征:会议次数
-
替代特征:每月会议或特定阶段的会议次数
将度量转换为会议频率可以更好地解释变化。在销售过程的特定阶段衡量会议可以更好地表达销售势头并说明周期。
预测未来交易金额
目标列是下一笔交易的金额。
-
原始特征:上次订单金额
-
替代特征:平均订单金额或订单金额的百分比变化
平均金额为您提供了更广泛的订单行为描述。购买模式的变化提供了一个标准化的价值。
客户会流失吗?
目标列是客户是否会流失(是或否)。
-
原始特征:客户情绪
-
替代特征:客户情绪的变化或当前情绪的天数
衡量情绪的变化更有可能导致行动。天数表示当前状态的持续时间。
员工是否自愿离职?
目标列是员工是否将离职(是或否)。
-
原始特征:薪酬
-
替代特征:与同行相比的薪酬或与行业平均水平相比的薪酬
将薪酬与同事进行比较,更符合员工的经验或情感。与行业平均工资的比较更符合员工的机会成本。
潜在客户会转化为商机吗?
目标列是潜在客户是否已转换(是或否)。
-
原始特征:您是怎么找到我们的?
-
替代特征:已回答(是或否)
行动才是最重要的,而不是答案。注意,在这种情况下,空值意味着什么:不作为。
日期
可以通过多种方式设计日期,以在一个数据集中创建多个特征,例如:
-
将日期解析为月、日和年(MM、DD、YYYY)三列。
-
将日期聚合为季节、季度或学期。
-
计算日期差,例如,自上次购买以来的天数。