跳到主要内容 跳到补充内容

自动数据准备和转换

您为实验选择的数据集将自动进行预处理,以便为模型训练做准备。预处理步骤包括数据准备和转换。这会提高数据的质量,从而为您提供一个生成准确结果的模型。

使用各种数据科学技术对数据进行预处理。大多数步骤都是默认执行的,在许多用例中都能正常工作。了解这些默认步骤以及基本概念可以帮助您了解在使用数据训练模型之前,需要对特定用例的数据进行哪些处理。

有关预处理步骤的信息显示在实验配置窗格中

AutoML 预处理部分。

实验设置

在预处理开始之前,AutoML 会执行几个准备步骤,并提供如何处理数据的预览。以下步骤适用:

  1. 将数据集中的列分类为具有分类、数字、日期或自由文本特性类型。

    • 浮点、双精度和十进制数据类型始终被视为数值型。

    • 具有字符串数据类型(平均包含少于 50 个字符)的列被分类为分类列。

    • 具有字符串数据类型(平均包含 50 个或更多字符)的列被分类为自由文本。然而,在这个阶段,不能保证这些列可以用作自由文本特性。预处理过程中会检查其他要求。参阅预处理步骤

    • 整数数据类型总是被认为是数字类型。

    • 日期和时间戳数据类型始终被认为具有日期特性类型。在实验设置过程中,AutoML 预览可能源自父日期特性的自动设计特性。

  2. 检查每列的稀疏性、常量和高基数。在下列情况下排除该列:

    • 该列为 50% 或更多的空值。删除包含特性空值的记录可能会导致丢弃其他有用的训练示例。或者,输入值可以保存示例,但记录仅成为现实的近似值。因此,通常最好排除具有大量(超过 50%)空值的特性。请注意,0 从不被视为空。

    • 该列在每行中具有相同的值(常量)。换句话说,列的基数较低。只有一个值的特性没有预测价值。

    • 该列是分类的,具有 90% 或更多的唯一值(高基数)。太多的唯一值使得模型很难超越训练数据集。

预处理开始后,可对数据的处理方式进行调整。

预处理步骤

选择目标列后,将标识并分隔目标值为空的行,将目标所在的行称为训练集。在以下步骤中,仅使用训练数据集中的数据进行决策。这些步骤以及元数据将被保存并应用于模型的任何新数据,以便进行预测。

每当运行新的实验版本时,都会对包含的特性执行预处理。

  1. 计算并保存数值的平均值和分类值的模式。

  2. 输入缺失值。有关更多信息,请参阅无效的插补

  3. 编码分类变量。

  4. 从数据集中的现有列生成新特性。这些新的自动设计特性可以提高您创建的模型的性能和预测能力。

    检查被标识为可能的自由文本的列的平均单词长度。如果列的平均单词长度大于五个单词,则可以使用自动特性设计将其编码为自由文本特性。如果不是,则会显示警告。如果不能作为自由文本使用,则如果该特性具有较高的基数,则应取消选择该特性。

  5. 计算并保存每个列的摘要统计信息,以用于要素缩放。

  6. 使用特性缩放标准化每列。

  7. 使用训练数据的自动保持和五重交叉验证。有关更多信息,请参阅保留数据和交叉验证

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!