解譯模型分數
模型分數是模型對訓練資料的預測能力程度的技術量值。除了特徵重要性,模型分數也是模型分析的關鍵層面。
模型評分指標
用於模型評分的關鍵指標視問題類型而異。問題類型可以是二元分類、多類別分類或迴歸。如需更多資訊,請參閱下列說明主題:
為什麼模型評分很重要
不同模型分數的用途是理解模型強度。這將會提升您對模型可用性的信心,並顯示可以進行的改善事項。若評分非常高或非常低,可能表示饋送至模型的資料有問題。
評分模型是很有挑戰性的任務,因為有數個指標描述關於模型的不同事項。若要瞭解這是否是好的模型,您需要合併商務領域知識以及對於各種評分指標的理解,還有用來訓練模型的資料。在某個使用案例中看起來很糟糕的分數,在另一個使用案例中可能獲得很棒的分數並產生很高的投資報酬率。
最重要的指標:汽車類比
哪一個指標最重要?這取決於您計畫如何使用模型。沒有單一指標可以告訴您想要知道的一切內容。
作為類比,請設想一下購買汽車。有許多不同的指標要考慮,例如燃料效率、馬力、扭矩、重量和加速。我們可能會希望各項都很棒,但我們必須根據計畫使用汽車的方式而有所取捨。通勤者可能希望汽車有很高的燃料效率,即使這表示扭矩會很低;而船主可能會選擇高扭矩,即使這表示燃料效率會比較低。
看待模型的方式也一樣。我們希望所有指標都很高 (而且我們可能可以使用更多資料和更好的特徵加以改善),但永遠要有所限制和取捨。有些分數更重要,取決於您打算使用模型進行的事項。
模型是否適合?
判定模型是否適合使用情況,以及是否適合投入生產,最後濃縮成這個問題:「模型的準確度是否足以產生正向的投資報酬,而不會有無法接受的後果?」以下四個問題可協助您解析。
模型是告知人為決定或自動化決定?
所需的準確度取決於您將會使用模型進行自動化或告知決定。例如,可以訓練模型決定員工應賺取多少金額。在此案例中,相較於僅告知決定,模型自動化決定可能需要更高的準確度。若經理用來探索員工薪資過低或過高,則他們可以使用自己的裁決權來判定模型是否錯誤。
是否有可量化的成本是誤判或誤否定?
您是否能夠量化假性結果的成本?在決定將模型視為適合所需的準確度層級時,將成本納入考量。
使用以上的相同範例,假設模型只是告知:不過,經理信任模型,沒有為員工加薪,因為模型輸出內容顯示,若加薪,員工薪資會過高。然後員工就會辭職,到別處工作。失去該名員工的成本是什麼?若情況相反,錯誤加薪的成本會是什麼?
模型優於隨機的程度如何?
對於迴歸問題,請判定若您一律假設目標欄的平均值,會有什麼錯誤。相較於此,模型的勝出程度如何?
對於分類問題,請採用平方正分類率並加到平方負分類率,以取得隨機準確度。相較於此,模型準確度的勝出程度如何?
模型是否優於進行最後通牒?
根據成本是否與錯誤有關聯,考慮模型是否優於最後通牒。例如,假設公司正在進行昂貴且耗時的免費諮詢 ($6,000) 但在成交時賺取很好的報酬 ($60,000)。公司目前的運作假設是 100% 的諮詢都會成交。不過,若他們可以判定哪些諮詢應該進行,哪些不應該進行,則會賺取更好的利潤。需要什麼樣的模型準確度才能讓公司使用模型輸出而非 100% 交易都會成交的最後通牒?
特徵重要性
雖然特徵重要性值在技術上不會視為模型分數,但仍然是評估預測模型效能的關鍵指標。評估特徵重要性也能協助識別實驗設定和訓練資料的問題,例如資料滲漏。
如需詳細資訊,請參閱 理解特徵重要性。