跳到主要內容 跳至補充內容

關聯

關聯可衡量資料中的特徵如何彼此關聯。特徵一起移動、彼此相反或沒有關聯?

關聯範圍從 -1.0 至 1.0。在 1.0,會將兩個變數視為有完美的正關聯,永遠以相同方向一起移動。具有 0.0 關聯的變數會被視為沒有關聯,以隨機模式共同移動。具有 -1.0 關聯的變數會一起移動,但是以相反方向。

正關聯特徵的範例是溫度和空調使用。溫度越高,您會越期待使用空調。相反地,溫度和暖氣使用是負關聯。溫度越高,您越不會期待使用暖氣。

高度關聯的特徵很可能是冗餘。最佳做法是不要在模型中納入兩個高度關聯的特徵。

關聯不是因果關係

觀察強烈的關聯時 (正或負),很容易會聯結到因果關係。因果關係是某個變數的移動造成另一個變數的移動。但是,關聯不代表因果關係,重要的是,應考慮兩個變數之間的深層邏輯關係。

沒有邏輯立基的關聯會被視為假性。假性關聯很容易發現,因為沒有邏輯將兩個變數繫結在一起。變數隱藏深層原因時,更常察覺因果關係。

假設我們正在嘗試理解是什麼驅動一連串零售商的泳衣銷售額。我們發現能源和泳衣銷售額之間的意外關係,如圖中所示。據此,我們可能會無意間假設泳衣銷售額受到人均能源消耗量的驅動。

能源消耗量與泳衣銷售額

圖表顯示能源和銷售泳衣之間的關聯。

實際上,能源消耗量掩蓋了另一個特徵:溫度。隨著溫度上升,對空調的需求提高,增加了能源消耗量。能源沒有造成泳衣需求,造成泳衣需求的是溫度。

溫度與泳衣銷售額

圖表顯示溫度和銷售泳衣之間的關聯。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!