關聯
關聯可衡量資料中的特徵如何彼此關聯。特徵一起移動、彼此相反或沒有關聯?
關聯範圍從 -1.0 至 1.0。在 1.0,會將兩個變數視為有完美的正關聯,永遠以相同方向一起移動。具有 0.0 關聯的變數會被視為沒有關聯,以隨機模式共同移動。具有 -1.0 關聯的變數會一起移動,但是以相反方向。
正關聯特徵的範例是溫度和空調使用。溫度越高,您會越期待使用空調。相反地,溫度和暖氣使用是負關聯。溫度越高,您越不會期待使用暖氣。
高度關聯的特徵很可能是冗餘。最佳做法是不要在模型中納入兩個高度關聯的特徵。
關聯不是因果關係
觀察強烈的關聯時 (正或負),很容易會聯結到因果關係。因果關係是某個變數的移動造成另一個變數的移動。但是,關聯不代表因果關係,重要的是,應考慮兩個變數之間的深層邏輯關係。
沒有邏輯立基的關聯會被視為假性。假性關聯很容易發現,因為沒有邏輯將兩個變數繫結在一起。變數隱藏深層原因時,更常察覺因果關係。
假設我們正在嘗試理解是什麼驅動一連串零售商的泳衣銷售額。我們發現能源和泳衣銷售額之間的意外關係,如圖中所示。據此,我們可能會無意間假設泳衣銷售額受到人均能源消耗量的驅動。
實際上,能源消耗量掩蓋了另一個特徵:溫度。隨著溫度上升,對空調的需求提高,增加了能源消耗量。能源沒有造成泳衣需求,造成泳衣需求的是溫度。