基數是欄中資料值的唯一性。具有太多唯一值或沒有唯一值的欄差異較小。機器學習模型無法識別該資料中任何種類的模式。
高基數代表大量唯一值。為了預防高基數,您可以分級或分組相似的值。您也可以建立新的特徵欄,例如住家地址可轉變為前往或來自特定位置的距離。
只有一個唯一值 (常數) 的欄在識別模式中不實用。
若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!