處理自由文字資料
自由文字 (例如,在表單中輸入的文字字串資料) 需要透過機器學習演算法進行特殊處理,這在模型中很實用。在 Qlik Predict 中,處理自由文字是自動特徵設計的一種形式。技術上而言,此處理使用 TF-IDF (字詞頻率 - 反向文件頻率) 方法。
Qlik Predict 支援以英文獨立處理具有自由文字資料的特徵。
若訓練資料中的欄包含自由文字,會指派自由文字特徵類型。這也可以作為類別特徵使用,雖然若有高基數 (太多唯一值),則強烈不建議這麼做。
您最多可以選取三個欄,用來作為實驗中的自由文字特徵。
自由文字編碼要求
為了將包含自由文字的欄成功編碼為自由文字,必須滿足兩個要求。會在實驗建立的不同階段檢查這些要求。
需求為:
-
欄的平均字元長度必須為 50 或更多字元。
-
欄的平均字詞長度必須為五個或更多字詞。
將特徵作為自由文字來處理
將特徵作為自由文字來處理的流程如下:
-
選取訓練資料時,Qlik Predict 會識別可作為自由文字處理的特徵。這在結構描述檢視中會標記可能的自由文字深入資訊,並且將有自由文字特徵類型。
-
執行第 1 版實驗後,即完成附加分析。此時,可能會發現,最初標記為「可能的自由文字」的特徵無法作為自由文字特徵使用。
若無法作為自由文字使用的特徵具有高基數,建議您從實驗中取消選取。這些特徵在作為類別處理時,對模型效能不會貢獻任何值。
若無法作為自由文字使用的特徵沒有高基數,您可以按一下作為類別處理,或將其特徵類型從自由文字切換為類別,以納入實驗當中。若您讓特徵類型保持為自由文字,也會在內部作為類別處理,並且將會進行影響編碼。
如需關於前置處理的完整詳細資訊,請參閱 自動資料準備和轉換。
如需關於每個顯示在結構描述檢視之深入資訊的更多資訊,請參閱 檢視關於訓練資料的深入資訊。
使用自由文字特徵作為實驗目標
在罕見的情況下,可以選取自由文字特徵作為目標。若特徵滿足自由文字編碼的所有要求,並且包含二到十個唯一值,則可以作為目標使用。在這些情境下,實驗會定義為標準二元分類或多類別分類問題。
預測中的自由文字特徵
若要瞭解使用以自由文字功能訓練的已部署模型執行預測的需求,請參閱 使用預測中的自由文字特徵。
考慮事項
在實驗中納入自由文字特徵會增加實驗的複雜性和需要的執行流程。若自由文字資料夠複雜,置換重要性圖表可能無法用於產生的模型。
疑難排解
使用自由文字資料訓練模型可以是資源密集流程。若您納入包含大量唯一字詞作為特徵的自由文字欄,您可能會遇到錯誤。
以下是解決這些錯誤的一些準則:
-
減少訓練資料集中的資料子集,以納入較少的自由文字列。
-
移除您在模型訓練中不需要納入的自由文字特徵。
-
將一個或多個自由文字欄作為類別特徵來處理,而非自由文字特徵。請注意,若這些自由文字特徵包含高基數,則不建議這麼做。
限制
-
自動自由文字功能工程僅適用於特定大小限制內的訓練資料集。如需詳細資訊,請參閱訓練資料集和分析限制。
-
自動自由文字特徵設計不適用於時間序列實驗。