隨著時間評估模型效能
訓練了多種機器學習模型並部署了最佳的模型後,您將開始對生產資料建立預測。持續評估模型的效能非常重要,才能確保這仍然能夠產生可靠的預測,以及訓練時所依據的資料仍然相關。
要監控的重要因素
操作需求
您的預測用途可能會隨著時間的推移而改變。變化可能很微小,也可能很重大。您將需要評估您的模型是否仍然能以目前的設定提供價值。如果自首次訓練模型以來,您的機器學習問題發生了很大的變化,建議您重新開始定義問題和資料集的流程。
輸入資料和預測準確度
輸入資料的分佈和趨勢經常隨時間變化。過去曾經確定的訓練資料品質內容可能不再相關,或者影響可能更加明顯。您可能會發現有一些影響預測結果的新變數,需要作為新特徵,在您的模型中採用。同樣,某些特徵對於模型中包含的結果,可能不再有夠大的貢獻。
監控資料以瞭解初始訓練資料和最新可用資料之間的漂移量,非常重要。如果某些特徵的漂移開始達到不再可接受的閾值,則需要收集新的資料並重新訓練模型,或從機器學習問題的新定義開始。如需其他關於資料漂移的詳細資訊,請參閱 資料漂移。
此外,如果您發現模型預測的準確度不再像最初那樣好,則需要重新評估需要變更哪些內容,以便恢復到可接受的效能。例如,您可能會發現,資料收集過程中發生的錯誤,影響了模型準確度。
重新訓練模型
隨著越來越多的歷史資料可用,無論您的效能是否下降,都無法避免需要重新訓練模型,以反映最新的資訊。
監控資料漂移
AutoML 具有內建功能,可協助您偵測已部署模型的特徵漂移。如需詳細資訊,請參閱監控已部署模型中的資料漂移。
接下來的步驟
根據您的使用情況和輸入資料的變化程度,您可能需要考慮以下一項或多項做法:
-
使用新的資料在相同的實驗中重新訓練模型。如果您的機器學習問題沒有發生重大變化,那麼此選項有幾個優點。特別是,您可以在相同的實驗中詳細比較所有實驗版本的模型。如需詳細資訊,請參閱變更和重新整理資料集。
-
如果您最初定義的原始機器學習問題不再相關,那麼建立新的實驗可能是更好的做法。這主要取決於您的使用情況。