理解模型演算法

演算法是產生模型的數學配方。這採用輸入內容 (即您的資料集)，並產生輸出內容 (即模型)。每個演算法都有不同的優點和缺點。

選擇目標時，Qlik Predict 會為該使用情況自動選取最佳演算法。目標會決定要使用哪種演算法。

在下列情況會使用最適合二進位和多類別分類問題的演算法：

目標只有兩個唯一值，如同在「客戶是否會取消訂閱？」的問題中，有「是」或「否」兩個值。
目標是字串值，以及三到十個唯一值。例如，以「紅色」、「藍色」、「綠色」或「黃色」之一的目標決定最佳行銷活動混合。

若目標是數字欄，則會使用最適合迴歸問題的演算法。預測有多少客戶將會購買是迴歸問題的範例。

用於二進位和多類別分類問題的演算法

Qlik Predict 對二進位和多類別分類問題使用下列演算法：

CatBoost 分類
彈性網迴歸
高斯貝氏機率分類
套索迴歸
LightGBM 分類
邏輯迴歸
隨機樹系分類
XGBoost 分類

用於迴歸問題的演算法

Qlik Predict 對迴歸問題使用下列演算法：

CatBoost 迴歸
LightGBM 迴歸
線性迴歸
隨機樹系迴歸
SGD 迴歸
XGBoost 迴歸

時間序列問題的演算法

Qlik Predict 對時間序列問題使用下列演算法：

時間序列 DeepAR
時間序列 Mixer
時間序列 Dense Encoder

不同的模型類型

模型類型可分為迴歸模型、系集、時間序列模型和其他類型的機器學習模型。

迴歸模型

迴歸模型或一般線性模型，是沿著每個彼此獨立之變數的網域尋找趨勢的模型。如同代數方程式 y = mx+b，該演算法希望為每個 x 和 y 值選擇平均會產生最高準確度的 m 和 b。這在有多個變數時通常是相同概念。線性迴歸和邏輯迴歸是迴歸模型的範例，分別適用於迴歸問題和分類問題。

對於分類問題，迴歸模型輸出是樣本為正分類的機率。這表示 y 等於機率，而非實際值。

迴歸很擅長尋找資料中的線性趨勢，但有時候會有非線性的關係。為了讓迴歸能夠順利配合非線性模式，在訓練模型之前需要資料轉換。對線性關係理解力強的優點是線性關係通常最適合搭配外插法。表格列出迴歸模型的優點和缺點。

優點	缺點
擅長外插法擅長對獨立變數尋找線性趨勢擅長處理來自相同母體的大量資料易於理解	不擅於利用變數之間的模式不擅於配合非線性趨勢有時候太過簡化

系集模型

系集是合併多個模型時的情況。這可以比擬為一群背景不同的人投票並使用平均票數來決定。隨機森林和 XGBoost 是系集模型的範例。

系集可以解決迴歸問題和分類問題。這擅長尋找非線性關係以及發現變數之間的互動如何影響目標。雖然系集擅長學習所訓練的資料範圍內的模式，但對於所見範圍以外的值，預測狀況很差。表格列出系集模型的優點和缺點。

優點	缺點
擅長利用變數之間的模式擅長尋找非線性趨勢擅長處理來自相同母體的大量資料	不擅於外插法不容易解譯

時間序列模型

時間序列模型是使用利用 GPU 加速和基於神經網絡方法的深度學習演算法來進行訓練。這些模型經過訓練，可產生對應特定日期和時間的預測。時間序列模型支援涉及多變量目標的預測，以及靜態、過去和未來的共變量。

時間序列模型需要大量的運算能力。

其他模型類型

其他模型類型包括所有其他模型類型。範例包括近鄰 (Nearest Neighbors) 和高斯貝氏機率分類 (Gaussian Naive Bayes)。這些模型類型通常會嘗試建立新的資料空間呈現，方法通常是建立某種衡量兩個不同記錄差距的距離指標。這擅長處理非線性趨勢，但隨著資料集大小增加，在運算上會更為昂貴。表格列出其他模型的優點和缺點。

優點	缺點
擅長利用變數之間的模式擅長尋找非線性趨勢	不擅於外插法對於較大的資料集，在運算上更為昂貴

此頁面是否對您有幫助？

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們！

在此留下意見回饋