監控已部署模型中的資料漂移
在 ML 部署中的資料漂移監控窗格中,您可以分析來源部署模型的資料漂移。資料漂移監控可讓您識別用於訓練模型的一個或多個特徵的分佈變化。
若某個特徵的計算漂移值超過 0.25,建議您使用最新資料重新訓練模型,或者,如果原始機器學習問題發生了顯著變化,則建議您設定新的模型。
AutoML 中的資料漂移計算
在 Qlik AutoML 中,資料漂移作為母體穩定指數 (PSI) 來計算。
您可以查看某個特徵的 PSI 值,以識別該特徵的顯著資料漂移。如果 PSI 值大於或等於 0.25,請考慮重新訓練模型或建立新的實驗。
PSI 值 | 描述 |
---|---|
0.1 以下 | 低度漂移 |
大於 0.1 但小於 0.25 | 輕微漂移 |
大於或等於 0.25 | 顯著漂移 |
啟動資料漂移分析
請執行下列動作:
-
開啟 ML 部署。
-
從左側面板,選取資料漂移監控。
-
就會產生內嵌分析。留在 Feature Drift 工作表,以執行資料漂移分析。
分析的可用性
開啟分析時,不會立即產生新的資料漂移計算。資料漂移計算每天在下午 4:30 (世界標準時間) 產生一次。
導覽內嵌分析
使用互動式介面,以分析已部署模型與內嵌分析。
在工作表之間切換
工作表面板可讓您於分析中在工作表之間切換。每個工作表有特定焦點。可以根據需要展開並收合面板。
Feature Drift 工作表包含有關資料漂移的所有資訊。切換到 Operations 工作表可讓您監控 ML 部署的使用情況。如需詳細資訊,請參閱監控已部署的模型操作。
選取選項
使用選項以精簡資料。您可以選取特徵及其特定值或範圍,並篩選特定日期和重要性範圍。在某些情況下,您可能需要選取一個或多個選項,以便顯示視覺化。按一下視覺化中的資料值,以進行選取。
您可以透過以下方式處理選項:
-
按一下內容、定義範圍並繪製,藉此選取值。
-
在圖表內搜尋以選取值。
-
按一下內嵌分析的頂端工具列中的所選欄位。這可讓您在現有選項中搜尋,鎖定或解鎖選項,並進一步修改選項。
-
在內嵌分析的頂端工具列中,按一下 以移除選項。按一下 圖示,以清除所有選項。
-
按一下 和 ,以在選項中向前或向後。
根據重要性分析特徵漂移
使用 Feature drift vs importance 圖一起分析特徵漂移和置換重要性。您可以識別漂移的變化何時與重要性模式的變化同時發生。同時檢視這兩個指標,您可以發現新出現的模式,並更深入地瞭解影響資料的趨勢。
若要理解漂移分數對模型效能的意義,請參閱 AutoML 中的資料漂移計算。
隨著時間監控特徵漂移
在 Feature drift over time 圖表中,檢視每個漂移計算的時間軸,並分析產生新的預測時隨時間推移發生的變化。
在 PSI 值為 0.25 時新增了一條參考線,以指示何時某個特徵出現顯著漂移。若要進一步理解漂移分數對模型效能的意義,請參閱 AutoML 中的資料漂移計算。
檢視特徵分佈
Value distribution 圖表有助於比較訓練資料集和用於模型產生之最新預測的資料集之間的特徵值分佈。您可以識別特徵中的哪些範圍受漂移影響最大、哪些最小。
藍色長條表示最新套用資料集中落在每個範圍內的值百分比。紫色圓形標記顯示訓練資料集中落在每個範圍內的值百分比。如果您發現長條高度和標記位置之間存在很大差異,則範圍可能受到漂移的影響。