執行快速模型分析
當實驗版本的模型完成訓練時,請對最重要的模型指標進行分析,並存取訓練資料處理方式的摘要。快速分析是在 組態/訓練資料 和 模型 索引標籤中進行。
使用 模型 索引標籤以取得訓練結果的概述。當您執行實驗版本時,系統會自動切換至 模型 索引標籤。也建議您重新造訪 訓練資料 索引標籤,以檢查資料是如何進行前置處理和處理的。
二元分類實驗的 模型 索引標籤
還有其他選項可用於進一步評估模型。您可以比較模型之間的其他指標和超參數,或專注於特定模型以進行精細分析。這些選項可在 比較 和 分析 索引標籤中找到。如需詳細資訊,請參閱:
瞭解概念
在開始評估模型之前,對模型分析背後的概念有基本的瞭解會很有幫助。如需詳細資訊,請參閱 理解模型檢閱概念。
最佳化設定對分析的影響
對於分類和迴歸實驗,根據您是否已使用智慧模型最佳化,您的分析體驗可能有些微不同。依照預設,會為新的分類和迴歸實驗開啟智慧模型最佳化。
透過智慧最佳化訓練的分析模型
依照預設,會透過智慧模型最佳化執行新的分類和迴歸實驗。
智慧模型最佳化提供更健全的訓練流程,理想上會建立準備好部署的模型,只需要稍微精簡或不需要進一步精簡。這些模型的效能在部署以用於生產使用情況時,仍取決於透過包括相關特徵和資料的高品質資料集來訓練。
若您的版本已透過智慧模型最佳化進行訓練,請考慮下列事項:
-
根據演算法如何分析資料,版本中的每個模型可以有不同的特徵選項。
-
從模型索引標籤,請先閱讀模型的模型訓練摘要,再深入瞭解特定分析。模型訓練摘要顯示了 Qlik Predict 如何透過迭代特徵選取和套用進階轉換來自動最佳化模型的摘要。
如需更多關於智慧模型最佳化的資訊,請參閱 智慧模型最佳化。
不透過智慧最佳化訓練的分析模型
或者,也可以關閉訓練版本的智慧模型最佳化。若您需要進一步控制訓練流程,手動模型最佳化會很實用。
若您使用了手動最佳化,版本中的所有模型將有相同的特徵選項,因此不需要模型訓練摘要。
檢查組態
在預處理期間,特性可能已在訓練中被排除。這通常是因為隨著訓練的進行,與您執行版本之前相比,已知更多關於數據的資訊。
檢視 模型訓練摘要 (僅在進行智慧最佳化時顯示) 後,如果您需要檢查這些其他變更,可以仔細查看實驗組態。
請執行下列動作:
-
在實驗中,切換至 訓練數據 索引標籤。
-
確保您處於
結構描述檢視。
-
使用工具列中的下拉式功能表從版本中選取模型。
-
分析模型結構描述。您可能需要專注於 洞察 和 特性類型 欄,以查看某些特性是否已捨棄或已轉換為不同的特性類型。
例如,最初標記為 可能自由文字 的特性可能在您執行版本後已被排除。
如需每個洞察代表意義的詳細資訊,請參閱 解讀資料集深入剖析。
請注意,如果您使用預設的智慧最佳化選項執行版本,由於自動調整,版本中的每個模型可能具有不同的特性選擇。如果執行版本時未使用智慧最佳化,則版本中所有模型的特性選擇將相同。如需智慧模型最佳化的詳細資訊,請參閱 智慧模型最佳化。
根據您在此組態中發現的內容,您可能需要返回資料集準備階段以改善您的特性資料。
關閉智慧型模型最佳化後,您將不會在快速分析體驗中看到 模型訓練摘要。此外,來自實驗版本的所有模型都將使用相同的特徵組合,而使用智慧型最佳化訓練的模型則可以具有不同的特徵組合。
選取模型
訓練完成時,系統會自動選取建議的模型進行分析,並顯示該模型的指標。
在模型之間切換以比較指標和組態的差異。如果您位於 訓練資料 索引標籤,請使用工具列中的下拉式功能表來挑選模型。如果您位於 模型 索引標籤,請按一下 模型指標 表格中的模型以挑選模型。
分析訓練摘要
智慧型模型最佳化
對於使用智慧型模型最佳化訓練的模型,模型訓練摘要 概述了訓練期間所發生情況的關鍵資訊。此摘要包括:
-
模型的抽樣比例。
-
因智慧型最佳化而自動捨棄的特徵清單。此清單因選取的模型而異。
-
訓練模型時套用的任何進階轉換摘要。
-
訓練資料集的連結。
如果您手動最佳化模型,則不會顯示 模型訓練摘要。
如需智慧型模型最佳化的詳細資訊,請參閱 智慧模型最佳化。
在 模型 索引標籤中顯示的模型 模型訓練摘要 圖
模型訓練摘要未列出在前置處理階段捨棄的特徵。若要檢查此資訊,請返回實驗的 資料 索引標籤。請參閱:檢查組態
請執行下列動作:
-
在實驗中,切換至 模型 索引標籤。
-
確認您已選取要分析的模型。
-
在頁面右側的 模型深入剖析 區段中,查看 模型訓練摘要。
時間序列實驗
在時間序列實驗中,模型訓練摘要 會顯示時間序列預測問題的組態設定,如您的資料集和訓練設定所定義。其中部分詳細資訊是在訓練開始前估計的,但現在在分析整個資料集後已確切證實。您可以檢視:
時間序列實驗中模型的 模型訓練摘要 圖
分析模型指標表格
模型指標 表格提供實驗中每個模型效能的高階資訊。此清單中的建議模型會呈現在表格上方。
具有建議模型和篩選器的 模型指標 表格
此表格顯示:
尋找頂尖模型
最佳和效能頂尖的模型是根據您套用的篩選器來決定的。它們會呈現在模型指標表格上方的建議,並且也會在表格中反白顯示。
預設會選取 最佳模型。此模型標有 圖示。最佳模型是根據同時考慮準確度和預測速度的平衡計算來決定的。
視您的使用案例而定,您可能也會有興趣個別分析特定的效能標記。其他效能頂尖的模型會以以下標記反白顯示:
-
最準確:模型根據問題類型的適用評分指標顯示最高準確度。
-
最快模型:模型提供最快的預測速度。準確度也會納入考慮。
您也可以直接從 模型指標 表格上方的建議中選取效能頂尖的模型。
如需如何決定每種建議模型類型的完整概述,請參閱 選取最適合您的模型。
篩選表格中的模型
可以篩選模型指標表格,以僅顯示您要比較的模型。
以下篩選器可用,並可視需要進行組合:
-
版本:選取一或多個實驗版本。
-
演算法:選取一或多個演算法。
-
100% 抽樣:預設會套用此篩選器。如果需要,可以將其移除。此篩選器會顯示使用整個訓練資料集來完成訓練和交叉驗證程序的模型。可在 更多模型篩選器 下找到。
-
已部署:顯示已部署至 ML 部署的模型。可在 更多模型篩選器 下找到。
套用所需的篩選器後,系統會根據篩選的項目自動重新計算效能頂尖的模型。然後會更新您的建議模型。
解讀特徵重要性視覺化
在 模型 索引標籤中,向下捲動以檢視特徵重要性視覺化。這些將會是 排列重要性 和 SHAP 重要性。
模型 索引標籤中的特徵重要性視覺化
排列重要性 圖
排列重要性 圖顯示每個特徵對模型整體預測的重要性。您在 排列重要性 圖中看到的內容可以協助您瞭解如何精簡模型。
您可以透過分析此圖獲得的常見深入剖析包括:
-
如果一個特徵消耗了幾乎所有的重要性,這很可能是目標洩漏的跡象。需要移除該特徵。如果這是由資料品質問題引起的,也需要解決這些問題。
-
某些特徵對模型預測的影響可能非常小,甚至沒有影響。排列重要性極低的特徵可視為統計雜訊,應予以移除。
如果使用智慧型模型最佳化來訓練版本,上述的一些常見問題可能已透過捨棄這些特徵而自動解決。
如需排列重要性的詳細資訊,請參閱 理解置換重要性。
SHAP 重要性 圖
SHAP 重要性 圖提供了另一種方式來分析實驗中每個特徵對每個模型預測的影響。這可以讓您及早深入瞭解哪些特徵是重要的,或者您是否需要重新設定訓練。如需詳細資訊,請參閱 理解實驗訓練中的 SHAP 重要性。
解讀模型評分視覺化
對於某些模型類型,可以使用其他視覺化來顯示模型執行狀況的概述。
二元分類
如果您的實驗是二元分類問題,系統會自動產生許多額外的視覺化以供快速取用。這些視覺化可讓您更深入地瞭解模型預測正類別和負類別的狀況。
如需這些視覺化的詳細資訊,請參閱 評分二進位分類模型。
混淆矩陣
混淆矩陣 圖顯示模型所建立預測的準確度。預測是在自動留出資料上執行的。
ROC 曲線
ROC 曲線 圖描述當實際結果為正時,模型在預測正類別方面的表現有多好。
如需理想 ROC 曲線外觀的指示,請參閱 AUC 和 ROC 曲線。
時間序列
對於時間序列模型,系統會自動產生 預測視窗中的預測錯誤 圖,以提供預測準確度的深入剖析。您可以檢視預測視窗中每個時間步長的預測錯誤率。錯誤率分為第 50、第 10 和第 90 百分位數。
分析偏差偵測結果
如果版本中的任何特徵已啟用偏差偵測,您可以快速深入瞭解哪些特徵被識別為具有資料和模型偏差。
由於空間有限,此精簡檢視中並未顯示所有指標和群組。例如,如果偏差偵測指標是根據這些統計資料計算的,則可能僅顯示最小值和最大值。您可以切換至 分析 索引標籤,以檢視每個選取特徵之偏差結果的完整詳細資訊。
如需詳細資訊,請參閱 偏差結果的快速分析。