关联
相关性度量数据中的特征之间的关联。这些特征是一起移动,彼此相对,还是彼此无关?
相关范围从 -1.0 到 1.0。两个变量被认为在 1.0 时具有完美的正关联,始终在同一方向上移动。具有 0.0 关联的变量被认为是不相关的,以随机模式共同移动。具有 -1.0 关联的变量一起移动,但方向相反。
正相关特征的一个例子是温度和空调的使用。温度越高,您希望使用的空调就越多。相反,温度和热量使用呈负相关。温度越高,预计使用的热量就越少。
高度相关的特征可能是多余的。最好不要在模型中包含两个高度相关的特征。
关联不是因果关系
当观察到积极或消极的强关联时,很容易将它们与因果关系联系起来。因果关系是指一个变量的移动导致另一个变量移动。然而,关联并不意味着因果关系,重要的是要考虑两个变量之间的潜在逻辑关系。
没有逻辑基础的关联被认为是虚假的。虚假关联很容易发现,因为没有逻辑将这两个变量联系在一起。当变量隐藏潜在原因时,更常见的是感知因果关系。
假设我们正在试图了解是什么推动了整个零售连锁店的泳装销售。如图所示,我们发现能量与泳衣销售之间存在着意想不到的关系。基于此,我们可能会无意中假设泳衣的销售是由人均能耗驱动的。
事实上,能源消耗掩盖了另一个特征:温度。随着温度升高,对空调的需求激增,从而增加了能源消耗。能源并不是泳装需求的原因,但温度才是原因。