自動資料準備和轉換

會自動前置處理您為實驗選取的資料集，以準備進行模型訓練。前置處理步驟包括資料準備和轉換。這會提升資料品質，以提供產生準確結果的模型。

有各種資料科學技術用來前置處理資料。依照預設，會執行大部分的步驟，在許多使用案例下都運作良好。瞭解這些預設步驟的內容以及基礎概念，可協助您先理解需要什麼來針對您的特定使用情況處理資料，再用來訓練模型。

實驗設定

在前置處理開始之前，Qlik Predict 會執行數個準備步驟並提供如何處理資料的預覽。某些步驟取決於您的實驗類型和其他因素。下列步驟可能適用：

將資料集中的欄分類為具有類別、數字、日期或自由文字特徵類型。
- 浮動、雙重和十進位資料類型一律視為數字。
- 具有字串資料類型且包含平均少於 50 個字元的欄，會分類為類別。
- 具有字串資料類型且包含平均 50 個或更多字元的欄，會分類為自由文字。不過，在此階段，不保證這些欄可作為自由文字特徵使用。會在前置處理期間檢查其他要求。請參閱 前置處理步驟。
- 整數資料類型一律視為數字。
- 日期和時間戳記資料類型一律視為具有日期特徵類型。在實驗設定期間，Qlik Predict 會預覽可能從父日期特徵衍生的自動設計特徵。
檢查每欄以了解稀疏性、常數和高基數。如有下列情況，則排除該欄：
- 欄的 50% 以上是 Null。為特徵刪除包含 Null 值的記錄可能會導致浪費掉實用的訓練範例。或者，雖然插補值可以儲存範例，但記錄只會變成現實的近似內容。因此，排除 Null 值數量很高 (超過 50%) 的特徵通常會比較好。請注意，0 絕對不應視為 Null。
- 欄在每一列都有相同的值 (常數)。換言之，即欄具有低基數。只有單一值的特徵沒有任何預測價值。
- 欄是類別且有 90% 或更多唯一值 (高基數)。太多唯一值會讓模型很難在訓練資集以外進行一般化。

必須根據前置處理開始後資料的處理方式進行調整。

前置處理步驟

選取目標欄後，後續步驟取決於實驗類型。對於分類和迴歸實驗，會識別並分隔目標值是 Null 的列，留下目標已知作為訓練集的列。對於時間序列實驗，遺失的目標值會進行內插。

只有來自訓練資料集的資料用於在下列步驟中做出決策。步驟連同中繼資料將會儲存並套用至模型的任何新資料，以對此進行預測。

只要您執行新的實驗版本，就會對包含的特徵執行前置處理。有些步驟取決於您的實驗類型以及其他因素。

為數值計算並儲存平均值，並為類別值計算並儲存模式。
插補遺漏值。如需詳細資訊，請參閱Null 插補。
編碼類別變數。
對於時間序列模型，會執行多個步驟以驗證使用者設定的實驗屬性，並在訓練完成後向使用者提供額外資訊：
- 最大預測視窗已確定。
- 日期索引的時間步長已確認。
- 使用者選取的目標分組已驗證，或者，如果未指定，則會從所包含的類別特性中識別出來。
從資料集中的現有欄產生新的特徵。這些新的自動設計特徵可以改善您建立之模型的效能和預測性功能。

會對識別為可能的自由文字的欄檢查平均字詞長度。若欄有大於五個字詞的平均字詞長度，可以使用自動特徵設計編碼為自由文字特徵。若否，就會顯示警告。若無法作為自由文字使用，則如果有高基數，應取消選取特徵。
為每欄計算並儲存摘要統計資料以用於特徵縮放。
透過特徵縮放標準化每欄。
對已選取用於偏差偵測的功能，特性執行分析，傳回資料偏差指標和相應的深入解析。如需詳細資訊，請參閱偵測機器學習模型中的偏差。
使用訓練資料的自動鑑效組和五重交叉驗證。如需詳細資訊，請參閱鑑效組資料和交叉驗證。
以更高的確定性計算資料集的各種統計資料。例如，可能會提供有關資料集大小、列和儲存格計數以及空值比例的新資訊。如需詳細資訊，請參閱訓練資料集和分析限制。

瞭解更多資訊

自動特徵設計

此頁面是否對您有幫助？

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們！

在此留下意見回饋