跳到主要內容 跳至補充內容

檢閱並精簡模型

第一個版本的模型訓練完成後,分析產生的模型指標並設定新的實驗版本,直到您達到需要的結果為止。

執行實驗版本時,會帶您前往模型索引標籤,您可以在此開始分析產生的模型指標。您可以回到資料索引標籤,以存取結構描述檢視資料檢視更精細的分析可以在比較分析索引標籤中執行。

當所有指標填入模型指標表格,且獎盃 獎盃 圖示顯示在最佳模型旁邊時,您就會知道第一個訓練版本已完成。

資訊備註AutoML 持續改善其模型訓練流程。因此,完成這些練習時,您可能會注意到,此頁面影像中顯示的模型指標和其他詳細資訊與您的內容不同。

從第 1 版分析模型

切換回模型索引標籤。在模型指標表格中,最佳模型以獎盃 獎盃 圖示評分。這表示這是根據 F1 分數表現最佳的模型。

模型指標表格顯示表現最佳的第 1 版模型

顯示關鍵模型指標的模型指標表格。

切換回模型索引標籤。在模型指標表格中,最佳模型以獎盃 獎盃 圖示評分。這表示這是根據 F1 分數表現最佳的模型。

按一下 F1 欄標頭,以依效能由高至低排序模型。您可能會選擇排除低效能演算法或僅聚焦於最佳演算法的項目,以在接下來的反覆訓練中取得更快結果。我們將會在之後的區段設定第 3 版時處理此問題。

識別資料滲漏

查看頁面右側的模型深入資訊圖表。這些圖表向您指示每個特徵的相對重要性,以及模型效能。

Permutation importance 圖表,以及實驗設定窗格中的特徵清單,注意模型的首次反覆運作重度依賴 DaysSinceLastService 特徵,相較於此,所有其他特徵幾乎沒有意義。

模型索引標籤中的置換重要性圖表,顯示資料滲漏

表現最佳的第 1 版模型的置換重要性圖表,顯示幾乎占據整個模型全部影響力的特徵「DaysSinceLastService」

此懸殊差異以及模型極高的 F1 效能分數應視為不太對勁的徵兆。在此案例中,在資料收集期間沒有定義邏輯,以停止為已取消訂閱的客戶計入上次服務工單以來的天數。因此,模型學習到聯結自上次服務工單 (代表已在數年前取消的客戶) 以來的大量天數與 Churned 欄位中的 yes 值。

此為資料滲漏的範例,因為在現實情境中,模型只能存取進行預測之前的資訊,而此欄位包含的收集天數已超過衡量點。此問題稱為目標外洩,是資料滲漏的一種形式。如需更多關於資料滲漏的資訊,請參閱 資料滲漏

我們需要從實驗設定窗格移除「滲漏」特徵 DaysSinceLastService,因為這歪曲了產生的模型。請注意,在實際使用案例中,需要在模型建立之前仔細調查資料品質和邏輯,以確保產生的模型受到正確訓練。

我們將會在設定第 2 版時處理此問題。

設定並執行版本 2

現在來設定新版本,以處理資料滲漏問題。

  1. 按一下檢視設定,以展開實驗設定面板。

  2. 按一下新版本

  3. 在面板中,於特徵之下,清除 DaysSinceLastService 核取方塊。

  4. 按一下執行 v2

移除第 2 版的 DaysSinceLastService

實驗設定面板顯示第 2 版的設定。

從第 2 版分析模型

第二個實驗版本完成執行之後,在模型指標表格中按一下表現最佳的第 2 版模型旁的核取方塊 (標記獎盃 獎盃 圖示)。這會以該模型的指標重新整理頁面。

比較訓練和鑑效組指標

您可以從交叉驗證訓練檢視其他指標並與鑑效組指標比較。

  1. 在實驗中,切換至比較索引標籤。

    就會開啟內嵌分析。您可以使用互動式介面,深入探討比較式模型分析並探索新的深入資訊。

  2. 在分析右側的工作表面板中,切換至 Details 工作表。

  3. 查看 Model Metrics 表格。這顯示模型評分指標,例如 F1,以及其他資訊。

  4. 訓練版本 1 受到目標外洩影響,所以現在僅將焦點放在第 2 版。使用工作表右側的 Version 篩選窗格,以選取值 1

  5. Columns to show 區段,使用篩選窗格新增並移除表格中的欄。

  6. 在下拉式清單方塊中,新增其他指標。每個指標的訓練分數顯示為以 Train 結尾的值。將某些訓練指標新增至表格。

您現在可以從交叉驗證訓練查看 F1 指標並與鑑效組指標比較。

新增並檢視與鑑效組分數比較的訓練分數

使用實驗中的「比較」索引標籤,以檢視訓練分數以及鑑效組分數

識別重要性低的特徵

接下來,我們應檢查是否有任何特徵的置換重要性很低。應移除對模型的影響力很小或沒有影響力的特徵,以改善預測準確度。

  1. 在實驗中,切換回模型索引標籤。

  2. 查看 Permutation importance 圖表。最低的四個特徵 StartMonthDeviceTypeCustomerTenureTerritory 對模型的影響小於其他特徵。這對於此使用案例的價值很低,可以視為統計雜訊。

在第 3 版,我們可以移除這些特徵,以查看這是否會改善模型分數。

模型索引標籤,選取了表現最佳的第 2 版模型。置換重要性圖表顯示有特徵對模型的影響力很小或沒有影響力。

所選第 2 版模型的置換重要性圖表,顯示幾個特徵有非常低的置換重要性

識別低效能演算法

我們也可以查看模型指標表格,以查看是否能從第 3 版訓練移除任何演算法。您可以在精簡模型時移除低效能演算法,以便訓練在後續反覆運作時執行得更快。

  1. 在實驗中,切換回模型索引標籤。

  2. 模型指標表格中,使用版本篩選,僅顯示來自第 2 版的模型。

  3. 查看每個演算法F1 分數。若某些演算法建立了分數大幅低於其他模型的模型,我們可以從下一個版本移除。

設定並執行版本 3

  1. 按一下檢視設定,以展開實驗設定面板。

  2. 按一下新版本

  3. 在面板中,於特徵之下,清除 StartMonthDeviceTypeCustomerTenureTerritory 的核取方塊。

  4. 也可以選擇展開演算法並清除 Gaussian Naive Bayes邏輯迴歸的核取方塊。

  5. 按一下執行 v3

從第 3 版分析模型

執行第 3 版後,您可以從模型指標表格清除版本篩選。選取第 3 版中表現最佳的模型。

現在來快速比較所有版本的模型。

第一個訓練版本產生最高分數,但這些指標被高度誇大,且資料滲漏問題造成不實際的效能預測因子。在 v3 中,表現最佳之模型的 F1 分數高於表現最佳的 v2 模型。

模型指標表格,為全部三個版本的模型顯示排序的 F1 分數。移除重要性低的特徵之後,F1 分數在第 3 版中改善。

使用模型指標表格快速比較每個實驗版本訓練的模型。

如先前所探索,您可以切換至比較索引標籤,更深入地比較模型分數。

聚焦於特定模型

在模型分析期間的任何時間點,您都能執行個別模型的精細分析。透過互動式 Qlik Sense 體驗,探索預測準確度、特徵重要性和特徵分佈。

  1. 選取了表現最佳的第 3 版模型後,按一下分析索引標籤。

    就會開啟內嵌分析。

  2. 透過 Model Overview 工作表,您可以分析模型的預測準確度。會透過選項的力量提升分析。按一下特徵或預測值,以進行選取。內嵌分析中的資料可調整以篩選資料。您可以向下探查特定特徵值和範圍,以檢視特徵影響和預測準確度如何變化。

  3. 切換至其他工作表,您可以檢視預測準確度、特徵分佈和影響分佈 (SHAP) 的視覺化。此分析內容可協助您:

    • 探索影響資料趨勢的關鍵驅動因素。

    • 識別特定特徵和群組如何影響預測值和預測準確度。

    • 識別資料中的異常值。

ML 實驗中的分析索引標籤

使用「分析」索引標籤透過選項的力量提升分析

接下來的步驟

在現實情境中,重要的是應在部署模型之前,根據需要多次重複這些精簡步驟,以確保您有適合特定使用情況的最佳模型。

在本教學課程中,前往關於部署模型的下一區段 。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!