跳到主要内容 跳到补充内容

关联

相关性度量数据中的特征之间的关联。这些特征是一起移动,彼此相对,还是彼此无关?

相关范围从 -1.0 到 1.0。两个变量被认为在 1.0 时具有完美的正关联,始终在同一方向上移动。具有 0.0 关联的变量被认为是不相关的,以随机模式共同移动。具有 -1.0 关联的变量一起移动,但方向相反。

正相关特征的一个例子是温度和空调的使用。温度越高,您希望使用的空调就越多。相反,温度和热量使用呈负相关。温度越高,预计使用的热量就越少。

高度相关的特征可能是多余的。最好不要在模型中包含两个高度相关的特征。

关联不是因果关系

当观察到积极或消极的强关联时,很容易将它们与因果关系联系起来。因果关系是指一个变量的移动导致另一个变量移动。然而,关联并不意味着因果关系,重要的是要考虑两个变量之间的潜在逻辑关系。

没有逻辑基础的关联被认为是虚假的。虚假关联很容易发现,因为没有逻辑将这两个变量联系在一起。当变量隐藏潜在原因时,更常见的是感知因果关系。

假设我们正在试图了解是什么推动了整个零售连锁店的泳装销售。如图所示,我们发现能量与泳衣销售之间存在着意想不到的关系。基于此,我们可能会无意中假设泳衣的销售是由人均能耗驱动的。

能耗与泳装销售

图表显示了能量和售出泳衣之间的相关性。

事实上,能源消耗掩盖了另一个特征:温度。随着温度升高,对空调的需求激增,从而增加了能源消耗。能源并不是泳装需求的原因,但温度才是原因。

温度与泳装销售

图表显示了温度和售出泳衣之间的相关性。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!