理解機器學習
機器學習是運用數學演算法來辨識資料模式,再用這些模式作出預測的實務做法。
簡單範例:預測銷售額
為了進一步理解機器學習,現在來看看一個簡單的範例,這預測下一季的產品銷售額。我們可能知道此產品的銷售額受到產品廣告花費的影響。查看前幾季的資料後,我們知道:
-
花在產品電視廣告的費用是多少 (以一千美元為單位)。
-
銷售額是多少 (以百萬美元為單位)。
繪製資料後,顯然產品電視廣告花費越高,就賣得越好。
若要預測下一個商業季度期間的銷售收入,我們可以配合歷史資料使用函數:
根據下一個商業季度的電視廣告費用預算金額,我們可以評估函數為對應至此金額的值。假設我們計畫在下一季的電視廣告花費 $225,000。評估函數為 225 讓我們得出 17.7,我們即可預測下一季有 $1770 萬的銷售額。
為了進一步改善預測準確度,我們可以嘗試尋找更適合歷史資料的函數 (如圖所示) 並根據此函數進行預測。
在此範例中,我們僅查看花在電視廣告的金額。我們也能考慮影響未來銷售額的其他因素。例如,我們可以不只將銷售額作為電視廣告花費的函數,而是將銷售額作為三個變數 (電視廣告花費、電台廣告花費和報紙廣告花費) 的函數。我們可以盡情使用多個變數,但整體想法都相同。
機器學習概念
從資料觀點,可減少使用歷史資料編譯表格的機器學習問題。我們在表格中有一欄代表想要預測的內容,在上一個範例中就是銷售額。在機器學習的語言中,此欄稱為目標。其他欄稱為特徵,用來預測目標欄的值。特徵是可能參與目標結果的變數。機器學習背後的基礎構想是:
給定一個資料集後,我們找到適合該資料的函數,因此可以預測對於特徵欄的值,會提供什麼樣的目標欄值。
已開發出數個純熟的機器學習演算法,用來解決不同種類的機器學習問題。當我們將資料饋送到機器學習演算法並使之學習模式時,就表示我們正在訓練機器學習演算法。
機器學習問題分為迴歸問題或分類問題,取決於我們想要預測的目標是數值或類別值。請參閱 分類問題 和 迴歸問題 中的範例。
自動化機器學習
透過自動化機器學習,可在根據歷史資料訓練的期間自動找到最適合的函數。只要按下按鈕,即可輕鬆上傳資料集、選取目標,然後開始訓練。
不過,只有良好的輸入內容,才能讓您取得良好的預測輸出內容。機器學習實驗需要定義良好的機器學習問題和設計用來回答該問題的資料集。若要開始使用第一個實驗,按照這些步驟:
- 定義機器學習問題
使用結構化架構將商務使用案例轉變為具體問題。
- 準備訓練資料集
收集與使用案例相關且品質良好旳資料。
- 建立自動化機器學習實驗
準備完成後,您可以開始實驗。