檢閱並精簡模型
第一版模型訓練完成後,分析產生的模型指標與建議模型。如果需要進一步修改以精簡模型,您可以使用手動模型最佳化以執行其他版本。
執行實驗版本時,會帶您前往模型索引標籤,您可以在此開始分析產生的模型指標。您可以回到資料索引標籤,以存取結構描述檢視和資料檢視。更精細的分析可以在比較和分析索引標籤中執行。
當所有指標填入模型指標表格,且獎盃 圖示顯示在最佳模型旁邊時,您就會知道第一個訓練版本已完成。
分析模型指標表格
切換回模型索引標籤。在模型指標區段,根據常見的品質要求醒目顯示建議的模型。已自動選取最佳模型 進行分析。
實驗中訓練的模型提供了三項建議。單一模型可以顯示在多個建議中。建議是:
-
最佳模型:該模型以最佳方式平衡了準確度最佳的指標和預測速度。
-
最準確:該模型在平衡和原始準確度指標中得分最高。
-
最快的模型:該模型除了強大的準確度相關指標,也具有最快的預測速度。
選擇最適合您使用情況的模型非常重要。在大部分情況下,最佳模型是最有利的選項。不過,您的預測使用情況可能需要對預測速度或準確度指標有特定的規格。
有關如何確定最佳模型類型的深入概述,請參閱 選取最適合您的模型。
顯示建議模型和模型指標的模型指標表格

您可以使用建議上方的下拉式篩選條件來縮小焦點範圍。每次變更篩選條件時,都會自動重新計算最佳模型類型。
使用表格上方的顯示指標選擇器在核心指標之間切換。您可以根據名稱和正在分析的所選指標對模型進行排序。
過適的模型在表格中以警告 標記。這些模型不適合部署。過適的原因可能包括訓練演算法採用的模型複雜度以及訓練資料集的問題。如需詳細資訊,請參閱過適。
分析模型訓練摘要
現在我們可以專注於介面右側的模型訓練摘要。此摘要可讓您探索如何最佳化模型和輸入訓練資料,以獲得最佳效能。模型訓練摘要是智慧模型最佳化所提供的增強事項概述。
從下圖的摘要,我們可以看出:
訓練資料中的特徵在訓練期間遭到捨棄,並且沒有納入模型中。
該模型的取樣率為 100%。
由於目標外洩,捨棄了特徵
由於目標外洩,特徵 DaysSinceLastService 在訓練期間遭到捨棄。
在此特徵欄中,在資料收集期間沒有定義邏輯,以停止為已取消訂閱的客戶計入上次服務工單以來的天數。因此,模型可能學習到聯結自上次服務工單 (代表已在數年前取消的客戶) 以來的大量天數與 Churned 欄位中的 yes 值。
需要從訓練中移除此功能,因為這會導致模型在新資料上的表現非常差。
這個基本問題稱為目標外洩,是資料滲漏的一種形式。如需更多關於資料滲漏的資訊,請參閱 資料滲漏。
由於關聯度高而捨棄的特徵
我們可以看到,PriorPeriodUsage-Rounded 和 AdditionalFeatureSpend 在訓練期間遭到捨棄。
在這種情況下,至少有一個特徵欄 PriorPeriodUsage-Rounded 直接從資料集中的另一欄衍生而來。偵測到 AdditionalFeatureSpend 的其他關聯問題。
移除導致關聯問題的特徵對於訓練高品質的模型非常重要。
如需更多關於關聯的資訊,請參閱 關聯。
由於重要性低而捨棄的特徵
由於置換重要性低,也捨棄了幾個特徵。經過初步分析,這些特徵被認為對目標結果的影響非常小。這些特徵可以看作是統計雜訊,已遭到移除,以提高模型品質。
如需更多關於置換重要性的資訊,請參閱 理解置換重要性。
模型訓練摘要

分析模型索引標籤中的其他視覺化
在模型索引標籤中提供了其他視覺化,可用於進行額外的高階分析。在模型指標表格中選取不同的模型,以探索特徵層級效能以及其他可以深入瞭解模型品質的圖表。
ML 實驗中的模型索引標籤顯示了可供分析的其他視覺化

比較訓練和鑑效組指標
您可以從交叉驗證訓練檢視其他指標並與鑑效組指標比較。
請執行下列動作:
在實驗中,切換至比較索引標籤。
就會開啟內嵌分析。您可以使用互動式介面,深入探討比較式模型分析並探索新的深入資訊。
在分析左側的工作表面板中,切換至詳細資訊工作表。
查看模型指標視覺化。這顯示模型評分指標,例如 F1,以及其他資訊。
在要顯示的欄區段,使用篩選窗格新增並移除表格中的欄。
在下拉式清單方塊中,新增其他指標。訓練分數可以新增至表格。您可以根據需要新增以供分析。
您現在可以從交叉驗證訓練查看 F1 指標並與鑑效組指標比較。
新增並檢視與鑑效組分數比較的訓練分數

聚焦於特定模型
在模型分析期間的任何時間點,您都能執行個別模型的精細分析。透過互動式體驗,探索預測準確度、特徵重要性和特徵分佈。
請執行下列動作:
選取任何模型,按一下分析索引標籤。
就會開啟內嵌分析。
透過模型概述工作表,您可以分析模型的預測準確度。會透過選項的力量提升分析。按一下特徵或預測值,以進行選取。內嵌分析中的資料可調整以篩選資料。您可以向下探查特定特徵值和範圍,以檢視特徵影響和預測準確度如何變化。
切換至其他工作表,您可以檢視預測準確度、特徵分佈和影響分佈 (SHAP) 的視覺化。此分析內容可協助您:
探索影響資料趨勢的關鍵驅動因素。
識別特定特徵和群組如何影響預測值和預測準確度。
識別資料中的異常值。
ML 實驗中的分析索引標籤

接下來的步驟
執行具有智慧模型最佳化的實驗版本後,您可以根據需要執行手動版本,以精簡您的模型。若要快速建立新的手動版本,您可以切換回模型索引標籤,並按一下模型訓練摘要中的新手動版本。
在現實情境中,重要的是應在部署模型之前,根據需要多次重複任何精簡步驟,以確保您有適合特定使用情況的最佳模型。
如需更多關於精簡模型的資訊,請參閱 精簡模型。
在本教學課程中,前往關於部署模型的下一區段 。