跳到主要內容 跳至補充內容

理解模型演算法

演算法是產生模型的數學配方。這採用輸入內容 (即您的資料集),並產生輸出內容 (即模型)。每個演算法都有不同的優點和缺點。

選擇目標時,AutoML 會為該使用情況自動選取最佳演算法。目標會決定要使用哪種演算法。

在下列情況會使用最適合二進位和多類別分類問題的演算法:

  • 目標只有兩個唯一值,如同在「客戶是否會取消訂閱?」的問題中,有「是」或「否」兩個值。

  • 目標是字串值,以及三到十個唯一值。例如,以「紅色」、「藍色」、「綠色」或「黃色」之一的目標決定最佳行銷活動混合。

若目標是數字欄,則會使用最適合迴歸問題的演算法。預測有多少客戶將會購買是迴歸問題的範例。

用於二進位和多類別分類問題的演算法

AutoML 對二進位和多類別分類問題使用下列演算法:

  • CatBoost 分類

  • 彈性網迴歸

  • 高斯貝氏機率分類

  • 套索迴歸

  • LightGBM 分類

  • 邏輯迴歸

  • 隨機樹系分類

  • XGBoost 分類

用於迴歸問題的演算法

AutoML 對迴歸問題使用下列演算法:

  • CatBoost 迴歸

  • LightGBM 迴歸

  • 線性迴歸

  • 隨機樹系迴歸

  • SGD 迴歸

  • XGBoost 迴歸

不同的模型類型

模型類型可分為迴歸模型、系集和其他類型的機器學習模型。

迴歸模型

迴歸模型或一般線性模型,是沿著每個彼此獨立之變數的網域尋找趨勢的模型。如同代數方程式 y = mx+b,該演算法希望為每個 xy 值選擇平均會產生最高準確度的 mb。這在有多個變數時通常是相同概念。線性迴歸和邏輯迴歸是迴歸模型的範例,分別適用於迴歸問題和分類問題。

對於分類問題,迴歸模型輸出是樣本為正分類的機率。這表示 y 等於機率,而非實際值。

迴歸很擅長尋找資料中的線性趨勢,但有時候會有非線性的關係。為了讓迴歸能夠順利配合非線性模式,在訓練模型之前需要資料轉換。對線性關係理解力強的優點是線性關係通常最適合搭配外插法。表格列出迴歸模型的優點和缺點。

優點 缺點
  • 擅長外插法

  • 擅長對獨立變數尋找線性趨勢

  • 擅長處理來自相同母體的大量資料

  • 易於理解

  • 不擅於利用變數之間的模式

  • 不擅於配合非線性趨勢

  • 有時候太過簡化

系集模型

系集是合併多個模型時的情況。這可以比擬為一群背景不同的人投票並使用平均票數來決定。隨機森林和 XGBoost 是系集模型的範例。

系集可以解決迴歸問題和分類問題。這擅長尋找非線性關係以及發現變數之間的互動如何影響目標。雖然系集擅長學習所訓練的資料範圍內的模式,但對於所見範圍以外的值,預測狀況很差。表格列出系集模型的優點和缺點。

優點 缺點
  • 擅長利用變數之間的模式

  • 擅長尋找非線性趨勢

  • 擅長處理來自相同母體的大量資料

  • 不擅於外插法

  • 不容易解譯

其他模型類型

其他模型類型包括所有其他模型類型。範例包括近鄰 (Nearest Neighbors) 和高斯貝氏機率分類 (Gaussian Naive Bayes)。這些模型類型通常會嘗試建立新的資料空間呈現,方法通常是建立某種衡量兩個不同記錄差距的距離指標。這擅長處理非線性趨勢,但隨著資料集大小增加,在運算上會更為昂貴。表格列出其他模型的優點和缺點。

優點 缺點
  • 擅長利用變數之間的模式

  • 擅長尋找非線性趨勢

  • 不擅於外插法

  • 對於較大的資料集,在運算上更為昂貴

瞭解更多資訊

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!