定義機器學習問題
將商務使用案例轉變為具體且可採取動作的機器學習問題,會很有挑戰性。按照結構化架構,以免落入常見陷阱並產生良好的預測模型。
架構描述如何定義機器學習問題以及如何收集準備好使用且結構良好的資料集。如需更多關於準備資料集的資訊,請參閱 讓資料集準備好進行訓練。
架構由四個部分組成:
-
事件觸發
-
目標
-
特徵
-
預測點
事件觸發
事件觸發是觸發建立新預測的動作或事件。每個事件觸發對應至單一資料列。
目標
目標是您嘗試預測的值。關於您如何定義值 (結果) 和決定值的時間範圍 (水平線),都必須很具體。定義結果和水平線取決於商務脈絡以及可用資料。確認目標與商務脈絡相關,並思考您想要透過預測的值所採取的動作。
目標在您用來訓練機器學習演算法的資料集中以單一欄代表。
特徵
特徵是資料集中的其他欄,可用來預測目標值。這是您對於哪些變數將會影響目標的假設。機器學習演算法在訓練期間使用特徵學習一般模式並對新的資料列進行預測。
特徵欄組成大部分的訓練資料集,其中每個特徵以單一欄代表。特徵必須彙總至事件觸發層級或更高層級。
可以修正特徵,這表示特徵在事件觸發當下或之前是已知狀態,或者特徵取決於時機,這表示在事件觸發之後、預測點之前收集資料。
預測點
預測點是停止收集特徵資料並預測每列目標的指定時間。決定預測點應落在何處是準確度 (預測得夠晚,以便收集有品質的特徵資料) 和可操作性 (預測得夠早,以便採取動作以影響結果) 之間的平衡。
介於事件觸發和預測點之間的時間是資料累積時機。這是用來收集特徵資料的時間。預測點和水平線之間的時間是動作時機,即用來對預測內容採取動作的時間。預測點可以落在事件觸發和目標水平線之間的任何地方。
範例:結構化架構
以下範例顯示結構化架構可以如何用於不同的商務使用案例。如需逐步套用架構的深入範例,請參閱 套用結構化架構:客戶流失範例。
客戶存留期值
-
事件觸發:客戶下訂第一筆訂單
-
目標:前三年的訂單總額
-
數字結果:美元金額
-
水平線根據平均客戶存留週期長度
-
-
特徵:潛在客戶來源、第一筆訂單金額、用於第一筆訂單的折扣 (是或否)、出貨狀態、出貨地區、第一筆訂單中的產品數量
-
預測點:第一筆訂單的三個月後
-
機器學習問題:「在客戶第一筆訂單的三個月後,預測他們在接下來 33 個月的訂單美元總額是多少」
客戶再次購買
-
事件觸發:客戶下訂單
-
目標:在六個月內下訂另一筆訂單
-
二進位結果:是或否
-
水平線的決定依據是資料顯示 90% 再次購買的客戶在六個月內這麼做
-
-
特徵:流量來源、先前訂單數量、使用的折扣、出貨狀態、出貨地區、訂購的產品數量、已開啟出貨通知電子郵件 (是或否)、在 10 天內返回網站、已註冊行銷電子郵件 (是或否)
-
預測點:訂購一週後
-
機器學習問題:「在客戶下訂單一週後,預測他們是否會在六個月內再次訂購」
銷售潛在客戶轉換
-
事件觸發:建立銷售潛在客戶
-
目標:在建立後 12 個月內轉換為已成交
-
二進位結果:是或否
-
水平線根據歷史銷售週期長度
-
-
特徵:潛在客戶來源、產業、公司大小、前 30 天的接觸點數量、在 30 天內安排會面 (是或否)、準確的電話號碼 (是或否)
-
預測點:建立潛在客戶 30 天後
-
機器學習問題:「在建立潛在客戶 30 天後,預測潛在客戶是否會在接下來 11 個月內轉換為已成交的商機」
學生畢業
-
事件觸發:已接受學生
-
目標:學生在課程開始後六年內畢業
-
二進位結果:是或否
-
水平線根據歷史畢業時間長度
-
-
特徵:高中類型、高中 GPA、SAT/ACT 分數、分班考試分數、從高中到註冊校園的距離、獎學金層級、父母的教育程度、第一個學期的 GPA、第一個學期的學分數
-
預測點:第一個註冊學期結束時
-
機器學習問題:「在第一個學期結束時,預測學生是否會在滿六年前畢業」
依月份顯示銷售額
-
事件觸發:該月的第一天
-
目標:該月期間的單位銷售額
-
數字結果:單位銷售數字
-
水平線根據曆月
-
-
特徵:產品類型、月份名稱、季度、去年同月的銷售額、兩年前同月的銷售額、上個月銷售額、平均折扣 %、行銷花費
-
預測點:該月的第一天
-
機器學習問題:「在該月第一天,預測該月結束時的單位銷售總額是多少」