相関
相関は、データ内の特徴量が互いにどのように関連しているかを測定します。特徴量は同じ方向に動くか、反対方向に動くか、または無関係ですか?
相関の範囲は -1.0 から 1.0 です。2 つの変数は、1.0 で完全な正の相関関係があるとみなされ、常に同じ方向に動きます。相関が 0.0 の変数は無相関とみなされ、ランダムなパターンで共に動きます。相関が -1.0 の変数は一緒に動きますが、反対方向になります。
正の相関がある特徴量の例として、気温と冷房の使用があります。気温が高くなればなるほど、冷房の使用は多くなると予想されます。反対に、気温と暖房には負の相関があります。気温が高くなればなるほど、暖房の使用は少なくなると予想されます。
相関が高い特徴量は、冗長である可能性があります。ベスト プラクティスは、相関の高い 2 つの特徴量をモデルに含めないことです。
相関関係は因果関係ではない
正または負の強い相関が見られると、それを因果関係と関連付けたくなることがあります。因果関係とは、一方の変数の動きが他方の変数の動きを引き起こすことです。ただし、相関関係は因果関係を意味するものではなく、2 つの変数間の根本的な論理関係を考慮することが重要です。
論理に基づいていない相関は、擬似相関とみなされます。2 つの変数を結び付ける論理がないため、擬似相関は簡単に発見できます。変数が根本的な原因を隠している場合に、因果関係を認識することが多くなります。
例えば、ある小売店チェーンで水着の売上を伸ばすために必要なものを理解しようとしているとします。エネルギーと水着の売上には、以下のチャートに示すように予想外の関係があることがわかりました。このことから、水着の売上は 1 人あたりのエネルギー消費量に左右されると推測してしまう可能性があります。
実は、エネルギー消費量は、気温という別の特徴量を隠しています。気温が高くなると、冷房の需要が急増し、エネルギー消費量が増加します。エネルギーが水着の需要を引き起こしているわけではなく、気温が原因となっているのです。