基数是列中数据值的唯一性。具有太多唯一值或没有唯一值的列几乎没有差异。机器学习模型无法识别数据中的任何模式。
高基数意味着大量的唯一值。为了防止基数过高,可以对类似的值进行分级或分组。也可以创建新的要素列,例如,可以将家庭地址转换为与特定位置的距离。
只有一个唯一值(常量)的列在识别模式时没有用处。
如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!