檢閱並精簡模型

第一個版本的模型訓練完成後，分析產生的模型指標並設定新的實驗版本，直到您達到需要的結果為止。

執行實驗版本時，會帶您前往模型索引標籤，您可以在此開始分析產生的模型指標。您可以回到資料索引標籤，以存取結構描述檢視和資料檢視。更精細的分析可以在比較和分析索引標籤中執行。

當所有指標填入模型指標表格，且獎盃圖示顯示在最佳模型旁邊時，您就會知道第一個訓練版本已完成。

AutoML 持續改善其模型訓練流程。因此，完成這些練習時，您可能會注意到，此頁面影像中顯示的模型指標和其他詳細資訊與您的內容不同。

從第 1 版分析模型

切換回模型索引標籤。在模型指標表格中，最佳模型以獎盃圖示評分。這表示這是根據 F1 分數表現最佳的模型。

切換回模型索引標籤。在模型指標表格中，最佳模型以獎盃圖示評分。這表示這是根據 F1 分數表現最佳的模型。

按一下 F1 欄標頭，以依效能由高至低排序模型。您可能會選擇排除低效能演算法或僅聚焦於最佳演算法的項目，以在接下來的反覆訓練中取得更快結果。我們將會在之後的區段設定第 3 版時處理此問題。

識別資料滲漏

查看頁面右側的模型深入資訊圖表。這些圖表向您指示每個特徵的相對重要性，以及模型效能。

從 Permutation importance 圖表，以及實驗設定窗格中的特徵清單，注意模型的首次反覆運作重度依賴 DaysSinceLastService 特徵，相較於此，所有其他特徵幾乎沒有意義。

表現最佳的第 1 版模型的置換重要性圖表，顯示幾乎占據整個模型全部影響力的特徵「DaysSinceLastService」 — 模型索引標籤中的置換重要性圖表，顯示資料滲漏

此懸殊差異以及模型極高的 F1 效能分數應視為不太對勁的徵兆。在此案例中，在資料收集期間沒有定義邏輯，以停止為已取消訂閱的客戶計入上次服務工單以來的天數。因此，模型學習到聯結自上次服務工單 (代表已在數年前取消的客戶) 以來的大量天數與 Churned 欄位中的 yes 值。

此為資料滲漏的範例，因為在現實情境中，模型只能存取進行預測之前的資訊，而此欄位包含的收集天數已超過衡量點。此問題稱為目標外洩，是資料滲漏的一種形式。如需更多關於資料滲漏的資訊，請參閱 資料滲漏。

我們需要從實驗設定窗格移除「滲漏」特徵 DaysSinceLastService，因為這歪曲了產生的模型。請注意，在實際使用案例中，需要在模型建立之前仔細調查資料品質和邏輯，以確保產生的模型受到正確訓練。

我們將會在設定第 2 版時處理此問題。

設定並執行版本 2

現在來設定新版本，以處理資料滲漏問題。

請執行下列動作：

按一下檢視設定，以展開實驗設定面板。
按一下新版本。
在面板中，於特徵之下，清除 DaysSinceLastService 核取方塊。
按一下執行 v2。

實驗設定面板顯示第 2 版的設定。 — 移除第 2 版的 DaysSinceLastService

從第 2 版分析模型

第二個實驗版本完成執行之後，在模型指標表格中按一下表現最佳的第 2 版模型旁的核取方塊 (標記獎盃圖示)。這會以該模型的指標重新整理頁面。

比較訓練和鑑效組指標

您可以從交叉驗證訓練檢視其他指標並與鑑效組指標比較。

請執行下列動作：

在實驗中，切換至比較索引標籤。
就會開啟內嵌分析。您可以使用互動式介面，深入探討比較式模型分析並探索新的深入資訊。
在分析右側的工作表面板中，切換至 Details 工作表。
查看 Model Metrics 表格。這顯示模型評分指標，例如 F1，以及其他資訊。
訓練版本 1 受到目標外洩影響，所以現在僅將焦點放在第 2 版。使用工作表右側的 Version 篩選窗格，以選取值 1。
在 Columns to show 區段，使用篩選窗格新增並移除表格中的欄。
在下拉式清單方塊中，新增其他指標。每個指標的訓練分數顯示為以 Train 結尾的值。將某些訓練指標新增至表格。

您現在可以從交叉驗證訓練查看 F1 指標並與鑑效組指標比較。

使用實驗中的「比較」索引標籤，以檢視訓練分數以及鑑效組分數 — 新增並檢視與鑑效組分數比較的訓練分數

識別重要性低的特徵

接下來，我們應檢查是否有任何特徵的置換重要性很低。應移除對模型的影響力很小或沒有影響力的特徵，以改善預測準確度。

請執行下列動作：

在實驗中，切換回模型索引標籤。
查看 Permutation importance 圖表。最低的四個特徵 StartMonth、DeviceType、CustomerTenure 和 Territory 對模型的影響小於其他特徵。這對於此使用案例的價值很低，可以視為統計雜訊。

在第 3 版，我們可以移除這些特徵，以查看這是否會改善模型分數。

所選第 2 版模型的置換重要性圖表，顯示幾個特徵有非常低的置換重要性 — 模型索引標籤，選取了表現最佳的第 2 版模型。置換重要性圖表顯示有特徵對模型的影響力很小或沒有影響力。

識別低效能演算法

我們也可以查看模型指標表格，以查看是否能從第 3 版訓練移除任何演算法。您可以在精簡模型時移除低效能演算法，以便訓練在後續反覆運作時執行得更快。

在實驗中，切換回模型索引標籤。
在模型指標表格中，使用版本篩選，僅顯示來自第 2 版的模型。
查看每個演算法的 F1 分數。若某些演算法建立了分數大幅低於其他模型的模型，我們可以從下一個版本移除。

設定並執行版本 3

請執行下列動作：

按一下檢視設定，以展開實驗設定面板。
按一下新版本。
在面板中，於特徵之下，清除 StartMonth、DeviceType、CustomerTenure 和 Territory 的核取方塊。
也可以選擇展開演算法並清除 Gaussian Naive Bayes 和邏輯迴歸的核取方塊。
按一下執行 v3。

從第 3 版分析模型

執行第 3 版後，您可以從模型指標表格清除版本篩選。選取第 3 版中表現最佳的模型。

現在來快速比較所有版本的模型。

第一個訓練版本產生最高分數，但這些指標被高度誇大，且資料滲漏問題造成不實際的效能預測因子。在 v3 中，表現最佳之模型的 F1 分數高於表現最佳的 v2 模型。

使用模型指標表格快速比較每個實驗版本訓練的模型。 — 模型指標表格，為全部三個版本的模型顯示排序的 F1 分數。移除重要性低的特徵之後，F1 分數在第 3 版中改善。

如先前所探索，您可以切換至比較索引標籤，更深入地比較模型分數。

聚焦於特定模型

在模型分析期間的任何時間點，您都能執行個別模型的精細分析。透過互動式 Qlik Sense 體驗，探索預測準確度、特徵重要性和特徵分佈。

請執行下列動作：

選取了表現最佳的第 3 版模型後，按一下分析索引標籤。
就會開啟內嵌分析。
透過 Model Overview 工作表，您可以分析模型的預測準確度。會透過選項的力量提升分析。按一下特徵或預測值，以進行選取。內嵌分析中的資料可調整以篩選資料。您可以向下探查特定特徵值和範圍，以檢視特徵影響和預測準確度如何變化。
切換至其他工作表，您可以檢視預測準確度、特徵分佈和影響分佈 (SHAP) 的視覺化。此分析內容可協助您：
- 探索影響資料趨勢的關鍵驅動因素。
- 識別特定特徵和群組如何影響預測值和預測準確度。
- 識別資料中的異常值。

接下來的步驟

在現實情境中，重要的是應在部署模型之前，根據需要多次重複這些精簡步驟，以確保您有適合特定使用情況的最佳模型。

在本教學課程中，前往關於部署模型的下一區段。

此頁面是否對您有幫助？

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善！

在此留下意見回饋