檢閱並精簡模型
第一個版本的模型訓練完成後,分析產生的模型指標並設定新的實驗版本,直到您達到需要的結果為止。
執行實驗版本時,會帶您前往模型索引標籤,您可以在此開始分析產生的模型指標。您可以回到資料索引標籤,以存取結構描述檢視和資料檢視。更精細的分析可以在比較和分析索引標籤中執行。
當所有指標填入模型指標表格,且獎盃 圖示顯示在最佳模型旁邊時,您就會知道第一個訓練版本已完成。
從第 1 版分析模型
切換回模型索引標籤。在模型指標表格中,最佳模型以獎盃 圖示評分。這表示這是根據 F1 分數表現最佳的模型。
切換回模型索引標籤。在模型指標表格中,最佳模型以獎盃 圖示評分。這表示這是根據 F1 分數表現最佳的模型。
按一下 F1 欄標頭,以依效能由高至低排序模型。您可能會選擇排除低效能演算法或僅聚焦於最佳演算法的項目,以在接下來的反覆訓練中取得更快結果。我們將會在之後的區段設定第 3 版時處理此問題。
識別資料滲漏
查看頁面右側的模型深入資訊圖表。這些圖表向您指示每個特徵的相對重要性,以及模型效能。
從 Permutation importance 圖表,以及實驗設定窗格中的特徵清單,注意模型的首次反覆運作重度依賴 DaysSinceLastService 特徵,相較於此,所有其他特徵幾乎沒有意義。
此懸殊差異以及模型極高的 F1 效能分數應視為不太對勁的徵兆。在此案例中,在資料收集期間沒有定義邏輯,以停止為已取消訂閱的客戶計入上次服務工單以來的天數。因此,模型學習到聯結自上次服務工單 (代表已在數年前取消的客戶) 以來的大量天數與 Churned 欄位中的 yes 值。
此為資料滲漏的範例,因為在現實情境中,模型只能存取進行預測之前的資訊,而此欄位包含的收集天數已超過衡量點。此問題稱為目標外洩,是資料滲漏的一種形式。如需更多關於資料滲漏的資訊,請參閱 資料滲漏。
我們需要從實驗設定窗格移除「滲漏」特徵 DaysSinceLastService,因為這歪曲了產生的模型。請注意,在實際使用案例中,需要在模型建立之前仔細調查資料品質和邏輯,以確保產生的模型受到正確訓練。
我們將會在設定第 2 版時處理此問題。
設定並執行版本 2
現在來設定新版本,以處理資料滲漏問題。
請執行下列動作:
按一下檢視設定,以展開實驗設定面板。
按一下新版本。
在面板中,於特徵之下,清除 DaysSinceLastService 核取方塊。
按一下執行 v2。
從第 2 版分析模型
第二個實驗版本完成執行之後,在模型指標表格中按一下表現最佳的第 2 版模型旁的核取方塊 (標記獎盃 圖示)。這會以該模型的指標重新整理頁面。
比較訓練和鑑效組指標
您可以從交叉驗證訓練檢視其他指標並與鑑效組指標比較。
請執行下列動作:
在實驗中,切換至比較索引標籤。
就會開啟內嵌分析。您可以使用互動式介面,深入探討比較式模型分析並探索新的深入資訊。
在分析右側的工作表面板中,切換至 Details 工作表。
查看 Model Metrics 表格。這顯示模型評分指標,例如 F1,以及其他資訊。
訓練版本 1 受到目標外洩影響,所以現在僅將焦點放在第 2 版。使用工作表右側的 Version 篩選窗格,以選取值 1。
在 Columns to show 區段,使用篩選窗格新增並移除表格中的欄。
在下拉式清單方塊中,新增其他指標。每個指標的訓練分數顯示為以 Train 結尾的值。將某些訓練指標新增至表格。
您現在可以從交叉驗證訓練查看 F1 指標並與鑑效組指標比較。
識別重要性低的特徵
接下來,我們應檢查是否有任何特徵的置換重要性很低。應移除對模型的影響力很小或沒有影響力的特徵,以改善預測準確度。
請執行下列動作:
在實驗中,切換回模型索引標籤。
查看 Permutation importance 圖表。最低的四個特徵 StartMonth、DeviceType、CustomerTenure 和 Territory 對模型的影響小於其他特徵。這對於此使用案例的價值很低,可以視為統計雜訊。
在第 3 版,我們可以移除這些特徵,以查看這是否會改善模型分數。
識別低效能演算法
我們也可以查看模型指標表格,以查看是否能從第 3 版訓練移除任何演算法。您可以在精簡模型時移除低效能演算法,以便訓練在後續反覆運作時執行得更快。
在實驗中,切換回模型索引標籤。
在模型指標表格中,使用版本篩選,僅顯示來自第 2 版的模型。
查看每個演算法的 F1 分數。若某些演算法建立了分數大幅低於其他模型的模型,我們可以從下一個版本移除。
設定並執行版本 3
請執行下列動作:
按一下檢視設定,以展開實驗設定面板。
按一下新版本。
在面板中,於特徵之下,清除 StartMonth、DeviceType、CustomerTenure 和 Territory 的核取方塊。
也可以選擇展開演算法並清除 Gaussian Naive Bayes 和邏輯迴歸的核取方塊。
按一下執行 v3。
從第 3 版分析模型
執行第 3 版後,您可以從模型指標表格清除版本篩選。選取第 3 版中表現最佳的模型。
現在來快速比較所有版本的模型。
第一個訓練版本產生最高分數,但這些指標被高度誇大,且資料滲漏問題造成不實際的效能預測因子。在 v3 中,表現最佳之模型的 F1 分數高於表現最佳的 v2 模型。
如先前所探索,您可以切換至比較索引標籤,更深入地比較模型分數。
聚焦於特定模型
在模型分析期間的任何時間點,您都能執行個別模型的精細分析。透過互動式 Qlik Sense 體驗,探索預測準確度、特徵重要性和特徵分佈。
請執行下列動作:
選取了表現最佳的第 3 版模型後,按一下分析索引標籤。
就會開啟內嵌分析。
透過 Model Overview 工作表,您可以分析模型的預測準確度。會透過選項的力量提升分析。按一下特徵或預測值,以進行選取。內嵌分析中的資料可調整以篩選資料。您可以向下探查特定特徵值和範圍,以檢視特徵影響和預測準確度如何變化。
切換至其他工作表,您可以檢視預測準確度、特徵分佈和影響分佈 (SHAP) 的視覺化。此分析內容可協助您:
探索影響資料趨勢的關鍵驅動因素。
識別特定特徵和群組如何影響預測值和預測準確度。
識別資料中的異常值。
接下來的步驟
在現實情境中,重要的是應在部署模型之前,根據需要多次重複這些精簡步驟,以確保您有適合特定使用情況的最佳模型。
在本教學課程中,前往關於部署模型的下一區段 。