處理自由文字資料

自由文字 (例如，在表單中輸入的文字字串資料) 需要透過機器學習演算法進行特殊處理，這在模型中很實用。在 Qlik Predict 中，處理自由文字是自動特徵設計的一種形式。技術上而言，此處理使用 TF-IDF (字詞頻率 - 反向文件頻率) 方法。

Qlik Predict 支援以英文獨立處理具有自由文字資料的特徵。

若訓練資料中的欄包含自由文字，會指派自由文字特徵類型。這也可以作為類別特徵使用，雖然若有高基數 (太多唯一值)，則強烈不建議這麼做。

您最多可以選取三個欄，用來作為實驗中的自由文字特徵。

若 2024 年 1 月 23 日之前訓練的模型使用包含自由文字資料的欄位，建議重新訓練這些模型。

自由文字編碼要求

為了將包含自由文字的欄成功編碼為自由文字，必須滿足兩個要求。會在實驗建立的不同階段檢查這些要求。

需求為：

將特徵作為自由文字來處理的流程如下：

選取訓練資料時，Qlik Predict 會識別可作為自由文字處理的特徵。這在結構描述檢視中會標記可能的自由文字深入資訊，並且將有自由文字特徵類型。
執行第 1 版實驗後，即完成附加分析。此時，可能會發現，最初標記為「可能的自由文字」的特徵無法作為自由文字特徵使用。

若無法作為自由文字使用的特徵具有高基數，建議您從實驗中取消選取。這些特徵在作為類別處理時，對模型效能不會貢獻任何值。

若無法作為自由文字使用的特徵沒有高基數，您可以按一下作為類別處理，或將其特徵類型從自由文字切換為類別，以納入實驗當中。若您讓特徵類型保持為自由文字，也會在內部作為類別處理，並且將會進行影響編碼。

如需關於前置處理的完整詳細資訊，請參閱 自動資料準備和轉換。

如需關於每個顯示在結構描述檢視之深入資訊的更多資訊，請參閱 檢視關於您訓練資料的深入剖析。

在罕見的情況下，可以選取自由文字特徵作為目標。若特徵滿足自由文字編碼的所有要求，並且包含二到十個唯一值，則可以作為目標使用。在這些情境下，實驗會定義為標準二元分類或多類別分類問題。

若要瞭解使用以自由文字功能訓練的已部署模型執行預測的需求，請參閱 使用預測中的自由文字特徵。

在實驗中納入自由文字特徵會增加實驗的複雜性和需要的執行流程。若自由文字資料夠複雜，置換重要性圖表可能無法用於產生的模型。

使用自由文字資料訓練模型可以是資源密集流程。若您納入包含大量唯一字詞作為特徵的自由文字欄，您可能會遇到錯誤。

以下是解決這些錯誤的一些準則：

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們！