基数是指列中数据值的唯一性。具有太多唯一值或没有唯一值的列几乎没有方差。机器学习模型无法识别该数据中的任何类型的模式。
高基数意味着大量唯一值。为了防止高基数,您可以对相似的值进行分箱或分组。您还可以创建新的特性列,例如,家庭住址可以转换为到特定位置的距离。
只有一个唯一值(常量)的列对于识别模式没有用处。
如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!