自動特徵設計
透過自動特徵設計,Qlik AutoML 可以在訓練資料中使用現有特徵,以建立新的特徵。這些自動設計的新特徵可讓您探索資料中的新模式,並且可以大幅改善機器學習模型的效能。
特徵設計是從目前的欄建立新特徵欄的流程。AutoML 可以執行自動設計的特徵,以進一步處理特定的資料類型。如需關於特徵設計的一般資訊,請參閱 建立新的特徵欄。
自動設計的日期特徵及其衍生自的父特徵會以 圖示標記。
選取資料集以用於實驗之後,會分析資料集,且其中的欄會被識別為包含特定資料類型。這些資料類型可讓 AutoML 將特徵類型指派至資料集中的每個欄。會向每個欄提供下列特徵類型之一:
-
類別
-
數字
-
日期
-
自由文字
若可能,AutoML 會顯示自動設計並且可從合格父特徵建立的特徵清單。可在前置處理開始時進一步精簡並減少此自動設計的特徵清單。建議在實驗中納入自動設計的特徵,但這是選用做法。在開始訓練之前,以及在設定每個新的實驗版本時,您可以移除自動設計的個別特徵。
如需更多關於在實驗訓練開始前完成之流程的資訊,請參閱 自動資料準備和轉換。
日期特徵設計
AutoML 從具有日期特徵類型的合格欄產生自動設計的特徵,這已識別為包括日期和時間資訊。自動設計的日期特徵及其衍生自的父特徵會以 圖示標記。
當 Qlik Cloud 分析 剖析您選取要用於 AutoML 的訓練資料集時,這會將特徵資料類型連結至日期特徵類型。這包括下列資料類型:
-
日期
-
日期時間
-
時間
-
時間戳記
在剖析期間向其中任何資料類型指派的特徵會獲得日期特徵類型。如需關於可對資料欄位檢視的可用剖析統計資料的資訊,請參閱 剖析清單檢視。
若可能,AutoML 會顯示自動設計並且可從具有日期特徵類型之合格父特徵建立的日期特徵清單。依照預設,會在實驗中納入自動設計的日期特徵。若您選擇納入,會在第 1 個實驗版本後產生新的特徵。
自動設計的日期特徵有數字特徵類型。依照預設,這包括在實驗中,但為選用性質。您可以在開始實驗訓練之前或在設定下一個實驗版本時移除部分或所有內容。若納入自動設計的日期特徵,會從實驗移除原始的父日期特徵。
您可以改為在實驗中納入父日期特徵。若您選擇這麼做,父特徵的特徵類型會從日期切換至類別,而自動設計的日期特徵則不再可用。建議在實驗中使用自動設計的可用特徵,因為這為機器學習模型帶來更好的效能。
自動設計的日期特徵不會計入 Qlik Cloud 訂閱中指定的 AutoML 資料集大小 (訓練資料集和套用資料集中的儲存格計數上限)。只會計入原始日期欄儲存格。
使用日期特徵作為實驗目標
若您想要使用具有日期和時間資訊的特徵作為實驗目標,則在這種罕見的情況下,欄的特徵類型將會從日期切換至類別,並且將會移除自動設計的特徵。若您選取另一個目標,且之後想要新增該日期和時間特徵作為一般特徵,則如有需要,您需要手動變更回日期特徵類型。若您將特徵恢復為日期特徵類型,會重新產生自動設計的日期特徵。
如需更多關於如何變更特徵類型的資訊,請參閱 變更特徵類型。
自動設計的可用日期特徵
從資料集中的欄產生自動設計的日期特徵時,AutoML 會擷取並計算每個日期和日期時間值的特定元件,在自己的欄中隔離每個元件。 下表列出可透過 AutoML 產生的自動設計特徵。
自動設計的特徵 | 資料類型 | 特徵類型 | 描述 |
年 | 整數 | 數字 | 直接從來源日期或時間戳記剖析的年欄位。 |
月 | 整數 | 數字 | 直接從來源日期或時間戳記剖析的月欄位。 |
日 | 整數 | 數字 | 直接從來源日期或時間戳記剖析的日欄位。 |
小時 | 整數 | 數字 | 直接從來源時間戳記剖析的小時欄位。 |
分鐘 | 整數 | 數字 | 直接從來源時間戳記剖析的分鐘欄位。 |
秒鐘 | 整數 | 數字 | 直接從來源時間戳記剖析的秒鐘欄位。 |
星期 | 整數 | 數字 | 星期幾,從來源日、月和年計算。 |
週 | 整數 | 數字 | 一年中的週,從來源日、月和年計算。 |
對於每個建立的新特徵,會透過適用的自動設計特徵為原始欄名稱加上後置詞。
預測中自動設計的日期特徵
使用訓練資料集以建立模型時,會產生自動設計的日期特徵,這會部署並作為 ML 部署使用,以對新的資料 (套用資料集) 進行預測。
部署透過自動設計之日期特徵訓練的模型以進行預測時,產生預測的套用資料集不需要納入自動設計的日期特徵。AutoML 在預測前為套用資料集產生自動設計的特徵。不過,套用資料集必須包括父日期特徵,而欄必須已剖析為具有日期、日期時間、時間戳記或時間資料類型。
透過 ML 部署建立的預測資料集,包括 SHAP 和套用資料集,將會納入自動設計的日期特徵。
即時預測中自動設計的日期特徵
對於能夠處理日期和時間戳記欄位的即時預測 API,您傳送至即時預測 API 的 JSON 承載必須遵守以下要求:
-
日期和日期時間值必須是根據 ISO 8601 標準格式化的字串
-
每個欄內的資料需要屬於相同時區
處理自由文字資料
自由文字 (例如,在表單中輸入的文字字串資料) 需要透過機器學習演算法進行特殊處理,這在模型中很實用。在 Qlik AutoML 中,處理自由文字是自動特徵設計的一種形式。技術上而言,此處理使用 TF-IDF (字詞頻率 - 反向文件頻率) 方法。
AutoML 支援以英文獨立處理具有自由文字資料的特徵。
若訓練資料中的欄包含自由文字,會指派自由文字特徵類型。這也可以作為類別特徵使用,雖然若有高基數 (太多唯一值),則強烈不建議這麼做。
您最多可以選取三個欄,用來作為實驗中的自由文字特徵。
自由文字編碼要求
為了將包含自由文字的欄成功編碼為自由文字,必須滿足兩個要求。會在實驗建立的不同階段檢查這些要求。
需求為:
-
欄的平均字元長度必須為 50 或更多字元。
-
欄的平均字詞長度必須為五個或更多字詞。
將特徵作為自由文字來處理
將特徵作為自由文字來處理的流程如下:
-
選取訓練資料時,Qlik AutoML 會識別可作為自由文字處理的特徵。這在結構描述檢視中會標記可能的自由文字深入資訊,並且將有自由文字特徵類型。
-
執行第 1 版實驗後,即完成附加分析。此時,可能會發現,最初標記為「可能的自由文字」的特徵無法作為自由文字特徵使用。
若無法作為自由文字使用的特徵具有高基數,建議您從實驗中取消選取。這些特徵在作為類別處理時,對模型效能不會貢獻任何值。
若無法作為自由文字使用的特徵沒有高基數,您可以按一下作為類別處理,或將其特徵類型從自由文字切換為類別,以納入實驗當中。若您讓特徵類型保持為自由文字,也會在內部作為類別處理,並且將會進行影響編碼。
如需關於前置處理的完整詳細資訊,請參閱 自動資料準備和轉換。
如需關於每個顯示在結構描述檢視之深入資訊的更多資訊,請參閱 檢視關於訓練資料的深入資訊。
使用自由文字特徵作為實驗目標
在罕見的情況下,可以選取自由文字特徵作為目標。若特徵滿足自由文字編碼的所有要求,並且包含二到十個唯一值,則可以作為目標使用。在這些情境下,實驗會定義為標準二元分類或多類別分類問題。
預測中的自由文字特徵
部署透過自由文字特徵訓練的模型時,只要套用資料集滿足下列要求,產生的 ML 部署就能產生預測:
-
特徵的欄名稱在訓練資料集和套用資料集之間相符
-
套用資料集中的欄 (對應至訓練資料的自由文字特徵) 包含字串資料
考慮事項
在實驗中納入自由文字特徵會增加實驗的複雜性和需要的執行流程。若自由文字資料夠複雜,置換重要性圖表可能無法用於產生的模型。
疑難排解
使用自由文字資料訓練模型可以是資源密集流程。若您納入包含大量唯一字詞作為特徵的自由文字欄,您可能會遇到錯誤。
以下是解決這些錯誤的一些準則:
-
減少訓練資料集中的資料子集,以納入較少的自由文字列。
-
移除您在模型訓練中不需要納入的自由文字特徵。
-
將一個或多個自由文字欄作為類別特徵來處理,而非自由文字特徵。請注意,若這些自由文字特徵包含高基數,則不建議這麼做。