跳到主要內容 跳至補充內容

建立新的特徵欄

特徵設計是從目前的欄建立新特徵欄的流程。這可以協助您從收集的來源資料中獲得其他預測能力,以回答商務問題。

例如,由於高基數,會從訓練資料中排除客戶的地址。我們不會使用地址,而會進行特徵設計,建立距離欄。若我們知道客戶地址與各種商店位置,就能計算與商店的距離。新的欄將會有數值,這可用來發現資料中可衡量的模式。

您可以在資料集執行特徵設計以準備用於 AutoML。此外,AutoML 會建議可從現有特徵自動產生的新特徵。

新的欄指示與不同商店的距離

具有樣本資料的表格。

檢閱資料集中的特徵,以判定可能存在的潛在問題或可進行的改善事項。設計良好的特徵需要技巧和商務經驗。您希望以直接繫結到目標欄的方式表達特徵。

要考慮的事項:

  • 時間因素是否納入特徵中?

  • 變更率是否有關係?

  • 是否應正規化特徵,以說明資料子集間的差異?

  • Null 值是否有意義?

自動設計的特徵

透過自動特徵設計,會從現有特徵自動建立新的特徵。

AutoML 從包含日期和時間資訊的欄產生自動設計的特徵。這些新的特徵將欄值的每個元件分為自己的特徵。

此外,特殊處理可套用至包含自由文字的欄。原始自由文字特徵會轉換為新的特徵,以改善模型訓練。

自動產生的特徵可在您訓練模型時改善模型的預測性和分析性的值。如需詳細資訊,請參閱自動特徵設計

範例:設計特徵

使用下列範例開始思考如何設計可以提升資料預測性質的特徵。

銷售商機是否已結束?

目標欄是銷售商機是否已結束 (是或否)。

  • 原始特徵:會見次數

  • 替代特徵:特定階段中的每月會見或會見次數

將量值轉換為會見頻率更能說明變化。衡量銷售過程中特定階段的會見次數更能表達銷售動力並說明週期。

預測未來交易金額

目標欄是下次交易的金額。

  • 原始特徵:上次訂單金額

  • 替代特徵:平均訂單金額或訂單金額的百分比變化

平均金額可向您提供更廣泛的訂單行為記述。購買模式的變化可提供正規化的值。

客戶是否會流失?

目標欄是客戶是否會流失 (是或否)。

  • 原始特徵:客戶意見

  • 替代特徵:客戶意見的變化或目前意見的天數

衡量意見變化更可能導致採取動作。天數提供目前狀態的持續時間。

員工是否自願離職?

目標欄是員工是否會離職 (是或否)。

  • 原始特徵:薪資

  • 替代特徵:與同儕相比的薪資或與產業平均相比的薪資

與同儕比較薪資更能符合員工的經驗或意見。與產業平均薪資比較更能符合員工的機會成本。

潛在客戶是否會轉換為商機?

目標欄是潛在客戶是否會轉換 (是或否)。

  • 原始特徵:您如何找到我們?

  • 替代特徵:已回答 (是或否)

動作是此處的重要內容,而非之前回答的內容。請注意,在此案例中,Null 有意義:不採取動作。

日期

透過 AutoML 的自動特徵設計功能,日期和時間戳記的元件會自動剖析為獨立的欄。

也可以透過許多其他方式設計日期,以在一個資料集中建立數個特徵,例如:

  • 將日期彙總為季節、季度或學期。

  • 計算日期差異,例如自上次購買以來的天數。

相關學習:

瞭解更多資訊

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!