跳到主要內容 跳至補充內容

處理自由文字資料

自由文字 (例如,在表單中輸入的文字字串資料) 需要透過機器學習演算法進行特殊處理,這在模型中很實用。在 Qlik Predict 中,處理自由文字是自動特徵設計的一種形式。技術上而言,此處理使用 TF-IDF (字詞頻率 - 反向文件頻率) 方法。

Qlik Predict 支援以英文獨立處理具有自由文字資料的特徵。

若訓練資料中的欄包含自由文字,會指派自由文字特徵類型。這也可以作為類別特徵使用,雖然若有高基數 (太多唯一值),則強烈不建議這麼做。

您最多可以選取三個欄,用來作為實驗中的自由文字特徵。

資訊備註若 2024 年 1 月 23 日之前訓練的模型使用包含自由文字資料的欄位,建議重新訓練這些模型。

自由文字編碼要求

為了將包含自由文字的欄成功編碼為自由文字,必須滿足兩個要求。會在實驗建立的不同階段檢查這些要求。

需求為:

  • 欄的平均字元長度必須為 50 或更多字元。

  • 欄的平均字詞長度必須為五個或更多字詞。

將特徵作為自由文字來處理

將特徵作為自由文字來處理的流程如下:

  1. 選取訓練資料時,Qlik Predict 會識別可作為自由文字處理的特徵。這在結構描述檢視中會標記可能的自由文字深入資訊,並且將有自由文字特徵類型。

  2. 執行第 1 版實驗後,即完成附加分析。此時,可能會發現,最初標記為「可能的自由文字」的特徵無法作為自由文字特徵使用。

    若無法作為自由文字使用的特徵具有高基數,建議您從實驗中取消選取。這些特徵在作為類別處理時,對模型效能不會貢獻任何值。

    若無法作為自由文字使用的特徵沒有高基數,您可以按一下作為類別處理,或將其特徵類型從自由文字切換為類別,以納入實驗當中。若您讓特徵類型保持為自由文字,也會在內部作為類別處理,並且將會進行影響編碼。

如需關於前置處理的完整詳細資訊,請參閱 自動資料準備和轉換

如需關於每個顯示在結構描述檢視之深入資訊的更多資訊,請參閱 檢視關於訓練資料的深入資訊

使用自由文字特徵作為實驗目標

在罕見的情況下,可以選取自由文字特徵作為目標。若特徵滿足自由文字編碼的所有要求,並且包含二到十個唯一值,則可以作為目標使用。在這些情境下,實驗會定義為標準二元分類或多類別分類問題。

預測中的自由文字特徵

若要瞭解使用以自由文字功能訓練的已部署模型執行預測的需求,請參閱 使用預測中的自由文字特徵

考慮事項

在實驗中納入自由文字特徵會增加實驗的複雜性和需要的執行流程。若自由文字資料夠複雜,置換重要性圖表可能無法用於產生的模型。

疑難排解

使用自由文字資料訓練模型可以是資源密集流程。若您納入包含大量唯一字詞作為特徵的自由文字欄,您可能會遇到錯誤。

以下是解決這些錯誤的一些準則:

  • 減少訓練資料集中的資料子集,以納入較少的自由文字列。

  • 移除您在模型訓練中不需要納入的自由文字特徵。

  • 將一個或多個自由文字欄作為類別特徵來處理,而非自由文字特徵。請注意,若這些自由文字特徵包含高基數,則不建議這麼做。

限制

  • 自動自由文字功能工程僅適用於特定大小限制內的訓練資料集。如需詳細資訊,請參閱訓練資料集和分析限制

  • 自動自由文字特徵設計不適用於時間序列實驗。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!