상관 관계
상관 관계는 데이터의 기능이 서로 관련되는 방식을 측정합니다. 기능이 함께 이동합니까, 서로 반대로 이동합니까, 아니면 관련이 없습니까?
상관 범위는 -1.0에서 1.0 사이입니다. 두 변수에는 항상 같은 방향으로 함께 움직이는 1.0에서 완벽한 양의 상관 관계가 있는 것으로 간주됩니다. 상관 관계가 0.0인 변수는 상관 관계가 없는 것으로 간주되며 임의 패턴으로 공동 이동합니다. 상관 관계가 -1.0인 변수는 함께 이동하지만 반대 방향으로 이동합니다.
양의 상관 관계가 있는 기능의 예는 온도 및 에어컨 사용입니다. 온도가 높을수록 더 많은 에어컨을 사용할 것으로 예상됩니다. 반대로 온도와 열 사용량은 음의 상관 관계가 있습니다. 온도가 높을수록 사용되는 열이 적어집니다.
상관 관계가 높은 기능은 중복될 가능성이 높습니다. 모델에 상관 관계가 높은 두 기능을 포함하지 않는 것이 가장 좋습니다.
상관 관계는 인과 관계가 아닙니다.
긍정적이든 부정적이든 강한 상관 관계를 관찰할 때 인과 관계를 연관시키려고 할 수 있습니다. 원인은 한 변수의 움직임이 다른 변수의 움직임을 일으키는 경우입니다. 그러나 상관 관계는 인과 관계를 의미하지 않으며 두 변수 간의 근본적인 논리적 관계를 고려해야 합니다.
논리에 근거하지 않은 상관 관계는 가짜로 간주됩니다. 가짜 상관 관계는 두 변수를 함께 묶는 논리가 없기 때문에 쉽게 검색할 수 있습니다. 변수가 근본적인 원인을 숨기고 있을 때 인과 관계를 인식하는 것이 더 일반적입니다.
소매점 연결 전체에서 수영복 판매를 유도하는 요소를 이해하려고 한다고 가정해 보겠습니다. 차트에서 볼 수 있듯이 에너지와 수영복 판매 사이에 예상치 못한 관계가 있음을 알 수 있습니다. 이를 바탕으로 의도치 않게 수영복 판매가 1인당 에너지 소비에 의해 좌우된다고 가정할 수 있습니다.
사실은 에너지 소비는 또 다른 특징인 온도를 가리고 있습니다. 온도가 상승하면 에어컨에 대한 수요가 급증하여 에너지 소비가 증가합니다. 에너지가 수영복 수요를 유발하는 것은 아니지만 온도가 발생합니다.