跳到主要內容 跳至補充內容

檢閱並精簡模型版本

第一個版本的模型訓練完成後,分析產生的模型指標並設定新的實驗版本,直到您達到需要的結果為止。

執行實驗版本時,會帶您前往模型檢視,您可以在此分析產生的模型指標。您可以隨時切換至結構描述或資料檢視。若您需要返回模型檢視,按一下模型檢視 物件 圖示。

當所有指標填入模型指標表格,且獎盃 獎盃 圖示顯示在最佳模型旁邊時,您就會知道第一個訓練版本已完成。

資訊備註AutoML 持續改善其模型訓練流程。因此,完成這些練習時,您可能會注意到,此頁面影像中顯示的模型指標和其他詳細資訊與您的內容不同。

分析模型

在模型檢視,我們可以透過獎盃 獎盃 圖示看見最佳演算法得分。這表示這是根據 F1 分數表現最佳的模型。

模型檢視顯示表現最佳的第 1 版模型。

顯示模型指標的模型檢視。
  1. 在表格右上方,按一下欄選擇器 欄 按鈕。在此,您可以針對我們的問題檢視所有可用指標,並根據需要新增或移除指標。選取您想要顯示在表格中的任何指標,或保留預設指標。

    使用欄選擇器以新增或移除模型指標表格中的指標

    模型指標表格中的欄選擇器
  2. 模型指標表格中,按一下演算法篩選下拉式清單,並選取對應至表現最佳之模型的演算法。

  3. 顯示訓練資料指標切換為開啟。

    您現在可以從交叉驗證訓練查看指標並與鑑效組指標比較。對於每個鑑效組指標欄,訓練資料中的同等指標有對應的「訓練」欄。

    顯示訓練資料指標的模型指標表格

    顯示在鑑效組指標之下的訓練指標。
  4. 按一下清除篩選條件並將顯示訓練資料指標切換回關閉。

  5. 按一下 F1 欄標頭,以依效能由高至低排序模型。您可能會選擇排除低效能演算法或僅聚焦於最佳演算法的項目,以在接下來的反覆訓練中取得更快結果。我們將會在之後的區段設定第 3 版時處理此問題。

  6. 向下捲動至指標表格之下,以查看所選模型的視覺化。

    模型指標表格和視覺化

    模型指標表格和視覺化。
  7. 按一下 實驗設定窗格,或按一下檢視設定,以展開實驗設定窗格。

  8. 按一下新版本以建立下一個實驗版本的草稿。

  9. Permutation importance 圖表,以及實驗設定窗格中的特徵清單,注意模型的首次反覆運作重度依賴 DaysSinceLastService 特徵,相較於此,所有其他特徵幾乎沒有意義。

    實驗設定窗格中的 Permutation importance 指標,注意特徵 DaysSinceLastService 的影響

    實驗設定窗格中的特徵清單,顯示「DaysSinceLastService」特徵對實驗的影響大得不成比例。

    此懸殊差異以及模型極高的效能應視為不太對勁的徵兆。在此案例中,在資料收集期間沒有定義邏輯,以停止為已取消訂閱的客戶計入上次服務工單以來的天數。因此,模型學習到聯結自上次服務工單以來的大量天數與 Churned 欄位中的 yes 值。

    此為資料滲漏的範例,因為在現實情境中,模型只能存取進行預測之前的資訊,而此欄位包含的收集天數已超過衡量點。如需更多關於資料滲漏的資訊,請參閱 資料滲漏

    我們需要從實驗設定窗格移除「滲漏」特徵 DaysSinceLastService,因為這歪曲了產生的模型。請注意,在實際使用案例中,需要在模型建立之前仔細調查資料品質和邏輯,以確保產生的模型受到正確訓練。

    我們將會在下一個區段設定第 2 版時處理此問題。

設定並執行版本 2

由於大部分的模型訓練將會在此資料滲漏問題修正之後變更,現在要先設定新版本,再完成任何進一步的精簡。

  1. 在上一個步驟,您已開啟實驗設定窗格以便設定 v2。

  2. 實驗設定窗格中的特徵之下,清除 DaysSinceLastService 核取方塊。

  3. 按一下執行 v2

設定並執行版本 3

第二個實驗版本完成執行之後,在指標表格中按一下表現最佳的第 2 版模型旁的核取方塊 (標記獎盃 獎盃 圖示)。這會以該模型的指標重新整理頁面。

模型指標表上方,按一下版本篩選下拉式清單並選取 2。這可讓您僅聚焦於第 2 版模型指標。

您將會看見重要特徵清單自處理資料滲漏以來已有很大程度的變更。表現最佳的模型所使用的演算法也可能與第 1 版表現最佳的模型不同。

模型指標表顯示表現最佳的 v2 模型,並且按 F1 分數排序

訓練第 2 版後套用了「v2」版本篩選條件的模型指標表格。
  1. 查看 Permutation importance 圖表。可能有特徵對模型的影響小於其他特徵。這對於此使用案例的價值很低,可以視為統計雜訊。您可以嘗試移除其中某些特徵,以查看這是否會改善模型分數。

    表現最佳的第 2 版模型的置換重要性圖表

    移除滲漏特徵 DaysSinceLastService 之後的置換重要性圖表。
  2. 按一下 實驗設定窗格,或按一下檢視設定,以展開實驗設定窗格。

  3. 按一下新版本以建立下一個實驗版本的草稿。

  4. 實驗設定窗格,於特徵之下,針對一個或多個對模型影響力很小和沒有影響力的特徵清除核取方塊。

  5. 查看模型指標表格。您可能會選擇排除某些低效能演算法或僅聚焦於最佳演算法的項目,以在接下來的反覆訓練中取得更快結果。

  6. 實驗設定窗格的演算法之下,針對一些低效能演算法選擇性清除核取方塊。

  7. 按一下執行 v3

比較實驗版本

模型指標表格中,按一下清除篩選條件

執行第 3 版後,按一下表現最佳的第 3 版模型旁的核取方塊,以檢視其指標。

按一下更多模型篩選,並選取最佳執行者篩選條件。您可以查看實驗每次反覆運作的最佳表現者指標。

第一個訓練版本產生最高分數,但這些指標被高度誇大,且資料滲漏問題造成不實際的效能預測因子。在 v3 中,表現最佳之模型的 F1 分數高於表現最佳的 v2 模型。

表現最佳的模型

套用「最佳執行者」篩選條件的模型指標表格,以顯示表現最佳的第 3 版模型。

在現實情境中,重要的是應在部署模型之前,根據需要多次重複這些精簡步驟,以確保您有適合特定使用情況的最佳模型。

在本教學課程中,前往關於部署模型的下一區段 。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!