跳到主要內容 跳至補充內容

分類問題

目標欄是類別欄的問題稱為分類問題。二進位分類問題具有兩個可能的類別,例如「是」或「否」,而多類別分類問題則有超過兩個可能的類別。

下列範例說明兩種類型的分類問題。也會討論定義機器學習問題時的某些考慮事項。

二進位分類範例:客戶流失

在此範例中,公司提供以訂閱為基礎的模型。已收集關於所有過去和目前客戶的資料。客戶已標記為是否已取消訂閱 (已流失)。

下表顯示收集的資料。每列代表唯一的客戶,而欄代表描述該客戶的不同特色。最後一欄是我們的目標。此為二進位欄,指示客戶是否已取消訂閱 (Yes (是) 或 No (否))。

收集之資料的樣本

具有訓練資料樣本的表格。

我們可以使用此資料集訓練機器學習演算法預測是否有任何指定客戶將會流失。不過,此方法有些問題:

  • 資料集會比較新舊客戶,但沒有尚未取消的客戶未來是否會取消的相關資訊。

  • 新獲得的客戶可能顯現出他們可能會流失的特性 (我們可能知道在第一個月買得不多的二十多歲男性容易很快取消訂閱)。不過,因為他們是新客戶而且尚未取消,我們訓練機器學習演算法將這些特性與不會取消的忠實客戶相關聯。

針對如何定義流失以及如何為問題準備資料集保持精準度,即可避免這些陷阱。需要經過練習,才能掌握如何以精確且適當的方式詢問商務問題,以便機器學習可以處理這些問題。開始在商務應用上使用機器學習時,查看良好與不良的方法範例很實用。若您不確定如何為機器學習架構商務問題,請考慮在商務指標的定義中納入時間範圍。此策略通常在未來可以順利發展。

納入時間因素

現在來考慮在問題中納入時間。我們可以研究哪些客戶會在前六個月內取消服務。例如,我們可以使用他們在第一個客戶月份的行為,以預測他們是否會在前六個月內流失。現在我們有精確的方式可定義客戶流失,亦即納入時間範圍的方式。我們可以像這樣彙總資料集:

納入時間因素的資料集

具有訓練資料樣本的表格。

在此,每列代表一個客戶,但現在我們只包括歷史上至少持續六個月的客戶。對於其中每一個客戶,他們在第一個月的購買次數和花費總額用來預測是否會在六個月後流失。對於此問題的目的,這變得與是否在前六個月後流失無關。目標欄只會告訴我們他們已在前六個月內取消訂閱。

現在,我們有訓練資料集,其中各列可以互相比較。對此資料集訓練模型後,我們可以取用已訂閱至少一個月的任何新客戶並使用他們在第一個月的行為和訓練模型,預測他們是否會在前六個月內流失。

多類別分類範例:鳶尾花花瓣

在此範例中,我們有關於大量鳶尾花樣本的資料。對於每一朵花,我們已記錄花瓣和花萼的長度和寬度,以及鳶尾花所屬的品種。未來遇到新的鳶尾花時,我們會希望能夠根據花萼長度、花萼寬度、花瓣長度和花瓣寬度預測鳶尾花品種。

收集之資料的樣本

具有訓練資料樣本的表格。

我們可以將收集的資料饋送到配合歷史資料採用函數的機器學習演算法。這樣的函數會根據其他四個變數的值輸出預測品種。輸出是來自離散類別集合的類別。

請注意,我們所根據的假設是我們用來預測的資料未來在統計上將會類似於我們用來訓練演算法的資料。若訓練資料集中只有三個不同的鳶尾花品種,則我們只能使用這個經過訓練的演算法,才能預測這些花卉品種。我們無法期待機器學習演算法根據未從訓練資料集中訓練辨識的模式進行預測。

瞭解更多資訊

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!