了解機器學習
機器學習是使用數學演算法來識別資料中的模式,然後使用這些模式進行預測的實踐。
一個簡單的範例:預測銷售額
為了更了解機器學習,讓我們看一個預測產品下個季度銷售額的簡單範例。我們可能知道該產品的銷售額會受到產品廣告支出的影響。透過查看前幾個季度的資料,我們知道:
-
在電視上為產品做廣告花費了多少錢 (以千美元為單位)。
-
銷售額是多少 (以百萬美元為單位)。
當我們繪製資料時,很明顯,在電視上為我們的產品做廣告花費的錢越多,我們賣出的就越多。
銷售額與電視廣告支出關係圖

為了預測下個業務季度的銷售收入,我們可以將函數擬合到歷史資料:
將線性函數擬合到資料

根據我們預算在下個業務季度用於電視廣告的金額,我們可以在對應於此金額的值處評估該函數。假設我們計劃下個季度在電視廣告上花費 225,000 美元。在 225 處評估該函數得到 17.7,我們可以預測下個季度的銷售額為 1770 萬美元。
評估該函數以預測特定廣告支出金額的銷售額

為了進一步提高我們預測的準確度,我們可以嘗試找到一個更適合歷史資料的函數 (如圖所示),並根據此函數進行預測。
更適合資料的函數

在這個範例中,我們只查看了在電視廣告上花費的金額。我們也可以考慮影響未來銷售的其他因素。例如,我們不將銷售額僅作為電視廣告支出的函數,而是可以將銷售額作為電視廣告支出、廣播廣告支出和報紙廣告支出這三個變數的函數。我們可以使用任意數量的變數,但總體思路是相同的。
機器學習概念
從資料的角度來看,機器學習問題被簡化為編譯包含歷史資料的表格。我們在表格中有一欄代表我們想要預測的內容,在我們之前的範例中是銷售額。在機器學習的語言中,此欄稱為目標。其他欄稱為特性,用於預測目標欄的值。特性是可能對目標結果有貢獻的變數。機器學習背後的基本思想是:
給定一個資料集,我們找到一個適合該資料的函數,以便我們可以在給定特性欄的值的情況下預測目標欄的值。
已經開發了幾種複雜的機器學習演算法來解決不同種類的機器學習問題。當我們將資料輸入機器學習演算法並讓它學習模式時,我們說我們正在訓練機器學習演算法。
在 Qlik Predict 中,機器學習問題分為分類、迴歸或時間序列問題,具體取決於:
自動化機器學習
透過自動化機器學習,在對您的歷史資料進行訓練期間會自動找到最適合的函數。您可以輕鬆上傳資料集、選取目標,然後按一下按鈕開始訓練。
但是,只有在有良好輸入的情況下,您才能獲得良好的預測輸出。機器學習實驗需要一個定義明確的機器學習問題和一個旨在回答該問題的資料集。要開始您的第一個實驗,請遵循以下步驟:
- 定義機器學習問題
使用結構化框架將您的業務使用案例轉化為特定問題。
- 準備您的訓練資料集
收集與您的使用案例相關的高品質資料。
- 建立自動化機器學習實驗
準備工作完成後,您就可以開始進行實驗了。