建立新的特徵欄
特徵設計是從目前的欄建立新特徵欄的流程。這可以協助您從收集的來源資料中獲得其他預測能力,以回答商務問題。
例如,由於高基數,會從訓練資料中排除客戶的地址。我們不會使用地址,而會進行特徵設計,建立距離欄。若我們知道客戶地址與各種商店位置,就能計算與商店的距離。新的欄將會有數值,這可用來發現資料中可衡量的模式。
您可以在資料集執行特徵設計以準備用於 AutoML。此外,AutoML 會建議可從現有特徵自動產生的新特徵。
檢閱資料集中的特徵,以判定可能存在的潛在問題或可進行的改善事項。設計良好的特徵需要技巧和商務經驗。您希望以直接繫結到目標欄的方式表達特徵。
要考慮的事項:
-
時間因素是否納入特徵中?
-
變更率是否有關係?
-
是否應正規化特徵,以說明資料子集間的差異?
-
Null 值是否有意義?
自動設計的特徵
透過自動特徵設計,會從現有特徵自動建立新的特徵。
AutoML 從包含日期和時間資訊的欄產生自動設計的特徵。這些新的特徵將欄值的每個元件分為自己的特徵。
此外,特殊處理可套用至包含自由文字的欄。原始自由文字特徵會轉換為新的特徵,以改善模型訓練。
自動產生的特徵可在您訓練模型時改善模型的預測性和分析性的值。如需詳細資訊,請參閱自動特徵設計。
範例:設計特徵
使用下列範例開始思考如何設計可以提升資料預測性質的特徵。
銷售商機是否已結束?
目標欄是銷售商機是否已結束 (是或否)。
-
原始特徵:會見次數
-
替代特徵:特定階段中的每月會見或會見次數
將量值轉換為會見頻率更能說明變化。衡量銷售過程中特定階段的會見次數更能表達銷售動力並說明週期。
預測未來交易金額
目標欄是下次交易的金額。
-
原始特徵:上次訂單金額
-
替代特徵:平均訂單金額或訂單金額的百分比變化
平均金額可向您提供更廣泛的訂單行為記述。購買模式的變化可提供正規化的值。
客戶是否會流失?
目標欄是客戶是否會流失 (是或否)。
-
原始特徵:客戶意見
-
替代特徵:客戶意見的變化或目前意見的天數
衡量意見變化更可能導致採取動作。天數提供目前狀態的持續時間。
員工是否自願離職?
目標欄是員工是否會離職 (是或否)。
-
原始特徵:薪資
-
替代特徵:與同儕相比的薪資或與產業平均相比的薪資
與同儕比較薪資更能符合員工的經驗或意見。與產業平均薪資比較更能符合員工的機會成本。
潛在客戶是否會轉換為商機?
目標欄是潛在客戶是否會轉換 (是或否)。
-
原始特徵:您如何找到我們?
-
替代特徵:已回答 (是或否)
動作是此處的重要內容,而非之前回答的內容。請注意,在此案例中,Null 有意義:不採取動作。
日期
透過 AutoML 的自動特徵設計功能,日期和時間戳記的元件會自動剖析為獨立的欄。
也可以透過許多其他方式設計日期,以在一個資料集中建立數個特徵,例如:
-
將日期彙總為季節、季度或學期。
-
計算日期差異,例如自上次購買以來的天數。