理解模型演算法
演算法是產生模型的數學配方。這採用輸入內容 (即您的資料集),並產生輸出內容 (即模型)。每個演算法都有不同的優點和缺點。
選擇目標時,AutoML 會為該使用情況自動選取最佳演算法。目標會決定要使用哪種演算法。
在下列情況會使用最適合二進位和多類別分類問題的演算法:
-
目標只有兩個唯一值,如同在「客戶是否會取消訂閱?」的問題中,有「是」或「否」兩個值。
-
目標是字串值,以及三到十個唯一值。例如,以「紅色」、「藍色」、「綠色」或「黃色」之一的目標決定最佳行銷活動混合。
若目標是數字欄,則會使用最適合迴歸問題的演算法。預測有多少客戶將會購買是迴歸問題的範例。
用於二進位和多類別分類問題的演算法
AutoML 對二進位和多類別分類問題使用下列演算法:
-
CatBoost 分類
-
彈性網迴歸
-
高斯貝氏機率分類
-
套索迴歸
-
LightGBM 分類
-
邏輯迴歸
-
隨機樹系分類
-
XGBoost 分類
用於迴歸問題的演算法
AutoML 對迴歸問題使用下列演算法:
-
CatBoost 迴歸
-
LightGBM 迴歸
-
線性迴歸
-
隨機樹系迴歸
-
SGD 迴歸
-
XGBoost 迴歸
不同的模型類型
模型類型可分為迴歸模型、系集和其他類型的機器學習模型。
迴歸模型
迴歸模型或一般線性模型,是沿著每個彼此獨立之變數的網域尋找趨勢的模型。如同代數方程式 y = mx+b,該演算法希望為每個 x 和 y 值選擇平均會產生最高準確度的 m 和 b。這在有多個變數時通常是相同概念。線性迴歸和邏輯迴歸是迴歸模型的範例,分別適用於迴歸問題和分類問題。
對於分類問題,迴歸模型輸出是樣本為正分類的機率。這表示 y 等於機率,而非實際值。
迴歸很擅長尋找資料中的線性趨勢,但有時候會有非線性的關係。為了讓迴歸能夠順利配合非線性模式,在訓練模型之前需要資料轉換。對線性關係理解力強的優點是線性關係通常最適合搭配外插法。表格列出迴歸模型的優點和缺點。
優點 | 缺點 |
---|---|
|
|
系集模型
系集是合併多個模型時的情況。這可以比擬為一群背景不同的人投票並使用平均票數來決定。隨機森林和 XGBoost 是系集模型的範例。
系集可以解決迴歸問題和分類問題。這擅長尋找非線性關係以及發現變數之間的互動如何影響目標。雖然系集擅長學習所訓練的資料範圍內的模式,但對於所見範圍以外的值,預測狀況很差。表格列出系集模型的優點和缺點。
優點 | 缺點 |
---|---|
|
|
其他模型類型
其他模型類型包括所有其他模型類型。範例包括近鄰 (Nearest Neighbors) 和高斯貝氏機率分類 (Gaussian Naive Bayes)。這些模型類型通常會嘗試建立新的資料空間呈現,方法通常是建立某種衡量兩個不同記錄差距的距離指標。這擅長處理非線性趨勢,但隨著資料集大小增加,在運算上會更為昂貴。表格列出其他模型的優點和缺點。
優點 | 缺點 |
---|---|
|
|