跳到主要內容 跳至補充內容

異常偵測與處理

使用智慧模型最佳化時會提供異常偵測和處理。藉由這些功能,Qlik AutoML 可以透過特定處理自動處理訓練資料中的異常值。在訓練期間,不會完全移除訓練資料中的異常資料,而是使用演算法驅動的加權系統進行處理。

在幾乎所有可以使用的資料中觀察到異常值或異常,是很常見的情況。異常是指超出您可能預期的慣例預期範圍的資料值。訓練機器學習模型時,可以容忍一定比例的異常,甚至可能希望以此反映現實世界偏差。不過,在極端情況下,異常和異常值會為模型帶來偏差,降低其可靠性和實用性。

範例

並非所有異常都應受到同等處理,也不應一律視為要從資料中移除。例如,如果資料異常是自然可能發生但不常見的情況,並且在收集資料時可以觀察到,那麼如果您希望在訓練的模型中使用,是有道理的。金融交易詐騙事件就是一個很好的例子。在數百萬筆交易中,只有少數可能與詐騙有關。根據您想要使用模型分析和解決的問題,您在產生預測時可能需要考慮日常交易中的詐騙機率。

您可能想要移除的異常範例是收集資料時在非故意的情況下發生的失敗情況。例如,假設您正在建立用於預測天氣模式的模型。您的模型正在根據來自監控天氣指標之感測器的資料進行訓練,而不相關的斷停電會導致從感測器收集到錯誤的資料。這些錯誤資料可能被視為異常資料,您會希望在完成模型訓練之前將其移除。

Qlik AutoML 如何處理異常?

使用智慧模型最佳化訓練模型時,會執行異常偵測和處理,智慧模型最佳化在新的實驗中預設為開啟。

異常處理通常可以視為發生在兩個獨立的流程中:偵測和實際模型訓練。

異常偵測

執行某個訓練版本時,AutoML 會在模型訓練開始之前完成幾個步驟。這包括資料分類、Null 插補和許多其他流程。異常偵測在此階段完成,並且僅在智慧模型最佳化開啟時完成。

就技術而言,Qlik AutoML 使用基於決策樹的演算法 (即隔離森林演算法) 偵測訓練資料中的異常和異常值。在智慧模型最佳化的資料處理階段,會向資料集中的每個資料點 (通常稱為記錄) 指派一個異常分數,並根據異常的確定性程度進行加權。

模型訓練中的異常處理

根據需要處理和轉換資料後,AutoML 就會開始訓練模型。在此流程中,先前產生的加權異常分數用於調整每列對模型的影響。例如,被認為極有可能包含異常的列,對模型訓練的影響較低。

這種加權評分系統讓 AutoML 能夠避免捨棄資料,而只是減少異常資料對模型的影響。

考慮事項

儘管 Qlik AutoML 具有異常偵測功能,但這並不表示任何資料都可以用於訓練高品質模型。如果您的資料反常地包含大量錯誤或損毀的資訊,則異常偵測無法解決所有這些問題。

在這些情境下,建議您返回資料收集流程,以確保您擁有最高品質、最真實的資料。這將協助您最佳化機器學習模型的可靠性和成功率。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!