智慧模型最佳化
智慧模型最佳化對您在實驗中訓練的模型提供自動精簡。透過智慧模型最佳化,會為您處理迭代進行特徵選取以及套用進階轉換的流程。對於包括所有相關特徵且準備良好的訓練資料集,您可以預期智慧模型最佳化會在單一版本內訓練準備好部署的模型。
什麼是智慧模型最佳化?
智慧模型最佳化可自動化模型精簡流程的許多層面。 透過智慧模型最佳化,您可以快速訓練高品質模型,而無需手動精簡特徵選取或調整輸入資料。
使用智慧模型最佳化
依照預設,會在新的 ML 實驗中開啟智慧模型最佳化。您可以對您執行的每個實驗版本開啟或關閉此功能。
在開啟智慧最佳化的情況下執行實驗版本後,可以在模型訓練摘要中檢視最佳化的結果。此摘要顯示在模型深入資訊之下的模型索引標籤中。將游標暫留在畫底線的字詞上方,以檢視工具提示與詳細描述。
實驗版本中訓練的每個模型會有不同的模型訓練摘要。
智慧模型最佳化如何運作
透過智慧模型最佳化:
訓練的模型比手動最佳化更多。會在模型層級處理特徵選項。這表示,與手動最佳化不同,版本中的每個模型可以有不同的特徵選項。
除了預設套用於所有模型的自動前置處理之外,也透過多種進階轉換來處理訓練資料。這些轉換有助於確保您的資料採用機器學習演算法的最佳格式。
為了保證品質,仍會訓練基準模型 (根據您為版本設定的整個特徵集所訓練的模型)。這有助於檢查智慧最佳化實際上是否改善了模型分數。
對於較大的訓練資料集,會根據各種取樣率訓練模型。這有助於加速訓練流程。如需詳細資訊,請參閱訓練資料取樣。
訓練資料取樣
以大量資料訓練模型時,AutoML 使用取樣,根據原始資料集的各種子集 (取樣率) 訓練模型。取樣用來加速訓練流程。訓練開始時,會根據小的取樣率訓練模型。隨著訓練持續進行,會逐漸根據較大的資料部分訓練模型。最終,會根據整個資料集 (100% 取樣率) 訓練模型。
在模型訓練資料的分析期間,以不到 100% 訓練資料集所訓練的模型會從某些檢視畫面中隱藏。
在智慧模型最佳化期間套用的處理
模型訓練摘要顯示如何透過智慧模型最佳化處理訓練資料。以下區段包含有關您在記錄中看到的每個項目的更多詳細資訊。
特徵選取
智慧模型最佳化捨棄可能降低預測效能的特徵,藉此協助精簡模型。在智慧模型最佳化期間,可能會因為下列任何原因捨棄特徵:
目標外洩:懷疑特徵受到目標外洩影響。受目標外洩影響的特徵包括關於您嘗試預測之目標欄的資訊。例如,特徵直接取自目標,或包括預測時不會知道的資訊。造成目標外洩的特徵會讓您對模型效能有虛假的安心感。在現實預測中,這會造成模型執行得非常差。
低置換重要性:特徵對模型預測的影響沒有很大 (如有)。移除這些特徵可降低統計雜訊,藉此改善模型效能。
高度關聯:特徵與實驗中的一個或多個其他特徵高度關聯。關聯過高的特徵不適合用於訓練模型。
在實驗內的資料索引標籤中,您可以檢視關於每個模型的已捨棄特徵的深入資訊。深入資訊也會參考智慧模型最佳化流程外部已捨棄的特徵。如需關於每個深入資訊的更多資訊,請參閱 解譯資料集深入資訊。
特徵轉換
智慧模型最佳化在特徵層級套用了多項技術轉換。這些轉換會處理您的訓練資料,以便更有效地用來建立可靠的機器學習模型。會根據需要自動套用特徵轉換。在模型訓練摘要中,會通知您套用特徵轉換的時間以及哪些特徵受到影響。
乘冪轉換
特徵資料在分佈上,通常自然會有一定程度的不對稱性以及偏離常態的分佈情況。在訓練模型之前,如果資料出現過度偏態,則對資料進行一些處理以標準化值的分佈會很有幫助。此處理有助於減少偏差並識別異常值。
透過智慧模型最佳化,超過特定偏態閾值的數字特徵將使用乘冪轉換來轉換為更正常 (或類似常態) 的分佈。具體而言,即使用 Yeo-Johnson 乘冪轉換。
數字特徵的分級
某些數字特徵可能包含機器學習演算法不易處理的模式和分佈。透過智慧模型最佳化,可以根據特定數字特徵的值範圍將其資料組織為不同的分級,藉此解決部分問題。執行分級以便將特徵轉換為類別特徵。
分級完成後,新的類別特徵將進行 one-hot encoded 並用於訓練。如需更多關於 one-hot encoded 的資訊,請參閱 類別編碼。
異常偵測與處理
異常是指超出您合理預期範圍的資料值。訓練資料中存在一些異常值的情況並不罕見。甚至可能需要一些異常作為反映現實世界可能性的一種方式。在其他情況下,異常可能會干擾訓練可靠模型的能力。
透過智慧模型最佳化,AutoML 可以識別潛在的異常情況。然後會使用演算法驅動的加權系統來處理出現異常值的列。如果強烈懷疑某個值為異常,則加權系統會減少訓練資料中對應列對模型的影響。
模型訓練後,會通知您有關原始訓練資料集中作為異常資料處理之列的百分比。
如需詳細資訊,請參閱異常偵測與處理。
關閉智慧最佳化
智慧最佳化關閉時,表示您手動最佳化訓練。若您需要進一步控制訓練流程,手動最佳化會很實用。尤其是,您可能會想要透過智慧模型最佳化執行版本,然後,若您需要進行小部分的手動調整,則關閉設定。
請執行下列動作:
在實驗中,按一下 檢視設定。
就會開啟實驗設定面板。
若您已執行至少一個實驗版本,按一下新版本。
在面板中,展開模型最佳化。
從智慧切換為手動。
考慮事項
使用智慧模型最佳化時,請考慮下列事項:
使用智慧模型最佳化不保證您的訓練將會產生高品質模型。資料集準備和實驗設定階段對於產生可靠的模型也很重要。若您沒有準備完善的資料集,或者若您的設定遺漏關鍵特徵,則不保證模型可在生產使用情況下執行得很好。如需更多關於這些階段的資訊,請參閱:
為版本開啟智慧模型最佳化時,來自此版本的每個模型將各自獨立的已納入特徵集合。另一方面,來自透過手動最佳化訓練的某個版本的所有模型將有相同的已納入特徵集合。
智慧模型最佳化僅使用版本設定中納入的特徵和演算法。
超參數最佳化
智慧模型最佳化開啟時,超參數最佳化無法使用。若要啟用超參數最佳化,您需要將模型最佳化設定為手動。
如需詳細資訊,請參閱超參數最佳化。
範例
如需展示智慧模型最佳化優點的範例,請參閱 範例 – 透過自動化機器學習訓練模型。