範例 – 透過自動化機器學習訓練模型
在此範例中,您將會使用智慧模型最佳化訓練機器學習模型。透過智慧模型最佳化,AutoML 會為您處理模型反覆和精簡流程。
如需更多關於智慧模型最佳化的資訊,請參閱 智慧模型最佳化。
您將會學習的內容
在此範例中,您將學到:
-
如何建立並設定 ML 實驗
-
智慧最佳化可以如何提供自動模型精簡
-
如何檢視並分析訓練結果
其他考慮事項
若模型獲得準備良好的資料集並需要精簡,智慧模型最佳化非常有幫助。為了確保模型在現實使用情況下具有高品質,重要的是,您一開始應按照結構化架構並使用相關特徵和資料準備訓練資料集。如需詳細資訊,請參閱:
可以為每個實驗版本選擇關閉智慧模型最佳化。若關閉此設定,代表您手動最佳化模型。若您想要對實驗設定進行特定調整,手動最佳化很實用。您可以透過智慧模型最佳化執行版本,然後關閉,以進行小部分的手動改善,同時仍可從自動精簡中受益。
此範例涵蓋使用智慧最佳化的實驗訓練。如需顯示如何使用手動最佳化的完整教學課程,請參閱 教學課程 – 產生並視覺化預測資料。該教學課程也針對透過互動式 Qlik Sense 應用程式部署模型、進行預測和視覺化預測資料提供端對端指導。
誰應完成此範例
您應完成此範例,以瞭解如何使用智慧模型最佳化,以精簡機器學習模型。
若要完成此範例,您需要進行下列事項:
-
專業或 Full User 權限
-
租用戶中的 Automl Experiment Contributor 安全性角色
-
若您在共同作業空間中工作,則為您工作所在空間中的所需空間角色。請參閱: 在共用空間中管理權限
若您無法檢視或建立 ML 資源,這可能表示您沒有所需角色、權利或權限。聯絡租用戶管理員瞭解更多資訊。
如需詳細資訊,請參閱 誰能使用 Qlik AutoML。
開始前需要進行的事項
在桌面下載此套件並解壓縮:
套件包含您將用來訓練模型的訓練資料集。資料集包含關於客戶的資訊,這些客戶已超過續約期限,並已決定要流失或維持訂閱服務。
請執行下列動作:
-
開啟 分析 活動中心。
-
前往「建立」頁面,選取資料集,然後選取上傳資料檔案。
-
將 AutoML Example - Churn data - training.csv 檔案拖曳至上傳對話方塊。
-
選取空間。這可以是個人空間或共用空間 (若您希望其他使用者能夠存取此資料)。
-
按一下上傳。
現在資料集上傳後,就能繼續建立實驗。
第 1 部分:建立實驗
請執行下列動作:
-
前往 分析 活動中心的「建立」頁面,並選取 ML 實驗。
-
輸入實驗名稱,例如智慧最佳化範例。
-
也可以選擇新增說明和標記。
-
選擇用於實驗的空間。這可以是個人空間或共用空間。
-
按一下建立。
-
選取 AutoML Example - Churn data - training.csv 檔案。
第 2 部分:設定實驗
接下來,我們可以設定實驗。
智慧模型最佳化需要的初始設定比手動最佳化少。在此案例中,我們將會選取目標並使用預設包括的所有特徵。
選取目標
我們希望機器學習模型預測客戶流失情況,因此選取資料集的最後一欄 Churned (已流失) 作為目標。
在實驗中,資料索引標籤應為顯示的唯一索引標籤。您可以使用多種方式選取目標,但在此我們使用預設已開啟的 結構描述檢視。
請執行下列動作:
-
在結構描述中,將游標暫留在 Churned 上方,並按一下顯示的目標 圖示。
確認特徵選項
選取目標後,依照預設會納入所有可用和建議的特徵。在 結構描述檢視中,確認納入兩個特徵以外的所有特徵。每個納入的特徵旁邊應有已勾選的核取方塊。Country 不提供使用。由於高基數,不建議使用 AccountID,所以我們不選取。
確認智慧最佳化
面板應在頁面右側開啟,以進行其他設定。我們希望確認已開啟智慧模型最佳化。
請執行下列動作:
-
若實驗設定面板未開啟,按一下 檢視設定以開啟。
-
在面板中,展開模型最佳化。
-
所選的最佳化選項應為智慧。
執行訓練
按一下頁面右下角的執行實驗,以開始模型訓練。
第 3 部分:檢視結果
訓練完成後,模型索引標籤就會顯示並開啟。您可在此檢視訓練期間執行了哪些最佳化。會自動選取標記 圖示的最佳模型。現在來分析此模型。
觀察模型訓練摘要。這向您顯示此模型的智慧最佳化結果。在此案例中,我們可以看見已捨棄下列特徵,並提供了移除原因:
-
由於懷疑有目標外洩,已捨棄 DaysSinceLastService。在此案例中,欄包含了具有不當邏輯的資料。對於已取消服務的客戶 (在某些情況下,可能是數年前),仍會主動計入自上次服務工單以來的天數。需要移除此特徵,因為這會向模型提供虛假的效能分數,並且會在部署後造成模型執行得非常差。請參閱 資料滲漏
-
已捨棄 PriorPeriodUsage 和 PriorPeriodUsage-Rounded,因為與另一個特徵的關聯過高。有關聯的特徵仍會納入訓練中。請參閱 關聯。
-
由於置換重要性低,CurrentPeriodUsage、CustomerTenure、StartMonth、Territory、DeviceType 和 StartWeek 全部捨棄。對模型影響程度低的特徵被視為統計雜訊,可移除以改善效能。請參閱 理解置換重要性。
現在已移除這些特徵,我們可以看見視覺化顯示最有影響力的特徵,以及模型預測效能的部分指標。您在這些圖表中看見的內容可協助您評估特徵集中是否有內容遺失,或者結果是否不準確。
如需更多關於透過這些視覺化分析模型的資訊,請參閱 執行快速模型分析。
深入探討分析
若您想要進一步探索模型指標,切換至實驗中的比較和分析索引標籤。這些索引標籤提供更精細、互動式的指標檢視。
接下來的步驟
透過高品質資料集,智慧最佳化建立準備好部署的模型,只需要稍微反覆運作或不需要進一步反覆運作。從這個時間點,建議您部署表現最佳的模型。否則,您可以繼續手動精簡模型,或更新訓練資料並重新執行智慧模型最佳化。
如需更多關於後續步驟的資訊,請參閱:
謝謝您!
您已完成此範例。我們希望您已瞭解如何使用智慧模型最佳化輕鬆地訓練準備好部署的機器學習模型。
進一步讀取和資源
- 當您想要進一步瞭解時,Qlik 會提供各種資源。
- 提供 Qlik 線上說明。
- 在 Qlik Continuous Classroom 提供培訓,包括免費線上課程。
- 可在 Qlik Community 找到討論論壇、部落格等。
您的意見很重要
我們對於您可能有的任何意見反應都十分感謝。請使用以下區段讓我們瞭解我們的表現如何。