微调模型
创建一些初始模型后,对其进行微调以提高其有效性和潜在准确度非常重要。模型评分表示该性能的不同度量。虽然微调模型的目的是提高这些评分,但较高的评分并不总是意味着模型更好。
您可以通过排除或包括特性、更改训练数据以及修改其他配置参数来微调模型。在此过程中,您可以比较不同的版本,以查看更改带来的影响。
通过解读评分,您将了解如何微调模型。不同指标的值可以为您提供有关采取哪些操作来改善结果的见解。
要求和权限
要了解有关使用 ML 实验的用户要求的更多信息,请参阅 使用实验。
配置新版本
运行实验版本后,如果需要,您可以通过创建新版本来微调模型。
执行以下操作:
-
在 训练数据、模型 或 分析 选项卡中,选择要用作下一版本基础的模型。
-
单击 查看配置。
实验配置面板将打开。
-
单击 创建新版本。
创建新版本后,您可以更改其配置,例如:
-
排除现有特性
-
包括以前排除的特性
-
更改或刷新数据集
-
选择或取消选择算法
有关这些选项的更多信息,请参见以下部分。
起草新版本时,单击实验配置面板中 特性 下的筛选 图标。进行筛选时,您可以更轻松地直观显示自更改训练数据集以来引入了哪些特性。您还可以查看哪些特性是自动工程化的,哪些是非工程化的。
改进数据集
如果您的模型评分不高,您可能需要检查数据集以解决任何问题。在 准备用于训练的数据集 中阅读有关如何改进数据集的更多信息。
排除特性
特性越多并不一定意味着模型越好。要微调模型,您需要排除不可靠和不相关的特性,例如:
-
相互关系过高的特性。在两个相关的特性中,排除特性重要性较低的一个。
-
特性重要性过低的特性。这些特性对您试图了解的内容没有任何影响。
-
特性重要性过高的特性。这可能是由于数据泄露造成的。
测试从训练数据中删除该特性,然后再次运行训练并检查这是否能改进模型。它对模型评分是有很大影响还是没有影响?
执行以下操作:
-
从目录中打开实验。
-
在 训练数据、模型 或 分析 选项卡中,选择要用作下一版本基础的模型。
-
单击 查看配置。
实验配置面板将打开。
-
单击 创建新版本 以配置新的实验版本。
-
在 特性 下,清除您不想在训练中使用的任何特性的复选框。
添加特性
如果您的模型评分仍然不高,可能是因为与目标有关系的特性尚未在数据集中捕获。您可以重新处理和重新利用数据集以优化数据质量,并添加新的特性和信息。准备就绪后,可以将新数据集添加到未来的实验版本中。请参阅 更改和刷新数据集。
在 创建新要素列 中阅读有关如何捕获或工程化新特性的更多信息。
更改偏差检测设置
您可以更改设置运行偏差检测的特性。例如,如果您向数据集添加了新特性,则可以针对这些特性开启偏差检测。
执行以下操作:
-
从目录中打开实验。
-
在 训练数据、模型 或 分析 选项卡中,选择要用作下一版本基础的模型。
-
单击 查看配置。
实验配置面板将打开。
-
单击 创建新版本 以配置新的实验版本。
-
展开训练配置面板中的 偏差。
-
(可选)单击 获取建议,以使用生成式 AI 建议可能包含偏差数据的特性。请参阅 使用生成式 AI 推荐用于偏差检测的功能。
-
选择或取消选择要运行偏差检测的任何特性。
或者,在 架构视图 中设置偏差检测设置。
For more information about bias detection, see 检测机器学习模型中的偏差.
选择算法
根据目标列的数据类型,系统会自动选择适合的算法进行训练。您可能希望排除性能不佳或速度较慢的算法。这样您就无需在训练中浪费时间。
有关如何选择算法的更多信息,请参阅 理解模型算法。
执行以下操作:
-
从目录中打开实验。
-
在 数据、模型 或 分析 选项卡中,选择要用作下一版本基础的模型。
-
单击 查看配置。
实验配置面板将打开。
-
单击 创建新版本 以配置新的实验版本。
-
在 算法 下,清除您不想在训练中使用的任何算法的复选框。
更改和刷新数据集
如果自上一个实验版本以来您的训练数据发生了变化,您可以更改或刷新未来实验版本的数据集。
如果您想比较同一实验中不同数据集的模型指标和性能,这可能会有所帮助。例如,在以下情况下这很有用:
-
有新的数据记录集可用,或者对原始数据记录集进行了更新。例如,最近一个月的交易可能已可用并适合用于训练,或者可能已识别并解决了数据收集问题。
-
原始训练数据集已被重新处理或重新利用,这可能是为了改进模型训练。例如,您可能改进了定义特性列值的逻辑,甚至添加了新的特性列。
更改或刷新数据集不会改变已从先前实验版本训练的现有模型。在实验版本中,模型仅在特定版本中定义的训练数据上进行训练。
要求
当您为新的实验版本更改或刷新数据集时,新数据集必须满足以下要求:
-
目标列的名称和特性类型需要与原始训练数据集中的目标相同。
- 目标列中不同值的数量必须在给定实验类型所要求的相同范围内。例如,对于多分类实验,新数据集中的目标列必须仍具有 3 到 10 个唯一值。有关特定范围,请参阅 配置实验。
其他特性列可以完全是新的,具有不同的名称,并包含不同的数据。
更改数据集
执行以下操作:
-
在 训练数据、模型 或 分析 选项卡中,选择要用作下一版本基础的模型。
-
单击 查看配置。
实验配置面板将打开。
-
单击 创建新版本 以配置新的实验版本。
-
在 训练数据 > 检查数据集 下,单击 更改数据集。
-
选择或上传新数据集。您可以选择:
-
数据集:选择您可以访问的任何空间中的数据集。请参阅 上传和选择数据集的提示和指南。
-
数据产品:从您可以访问的激活数据产品中选择数据集。有关数据产品的更多信息,请参阅 Creating data products。
-
刷新数据集
执行以下操作:
-
在 训练数据、模型 或 分析 选项卡中,选择要用作下一版本基础的模型。
-
单击 查看配置。
实验配置面板将打开。
-
单击 创建新版本 以配置新的实验版本。
-
在 训练数据 下,单击 刷新数据集。
如果有可用的数据集刷新,您会收到通知。当通过创建同名的新文件覆盖现有数据文件时,数据集通常会刷新。
上传和选择数据集的提示和指南
-
数据集可以通过 分析 活动中心的“创建”页面上传,并在目录中可见。您还可以从实验的数据集选择页面将新数据集直接上传到目录中。为此,请单击上传文件并选择要上传的文件。
-
Qlik Cloud 中支持在 Qlik Predict 中使用任何可以上载和分析的扁平文件。
对于多表文件(如具有多个工作表的 Microsoft Excel 文件),将只导入第一个表。如果表的数据分析失败(例如,如果表为空),则不支持该文件。
运行微调版本
完成版本配置后,即可运行它。
执行以下操作:
-
单击屏幕右下角的 运行 v2。
(按钮上的文本取决于您运行的版本数量。)
比较实验版本
新版本完成训练后,将新版本与旧版本进行比较,以查看更改的效果。您有多种选项可用于跨实验版本比较模型。
快速分析
使用实验中的 模型 和 训练数据 选项卡将该版本与旧版本进行比较。在 模型 选项卡中,您可以:
-
在 模型指标 表中查看结果。
-
根据常见的预测分析要求(包括准确度和预测速度)查看推荐的模型。
-
在模型之间切换,以查看 模型训练摘要 和其他自动生成的图表中的差异。
有关快速模型分析的更多信息,请参阅 执行快速模型分析。
深度分析
您可以通过切换到实验中的 比较 和 分析 选项卡来深入分析模型。这些选项卡提供了嵌入式分析体验,您可以在其中以更精细的粒度以交互方式评估模型。
比较 选项卡提供了所有模型之间模型评分和超参数的比较。分析 选项卡允许您专注于特定模型,以评估预测准确度、特性重要性及其他细节。
有关更多信息,请参阅 比较模型 和 执行 详细的模型分析。
更改模型优化设置
在运行激活了智能优化的版本后,您可以关闭智能优化。这允许您使用智能优化提供的见解,同时还为您提供进行微小、极少调整所需的控制。或者,在运行一个或多个关闭了该设置的版本后,您可以开启智能模型优化。
超参数优化是在模型微调过程中开启可能会有所帮助的设置。通常,不建议在实验的第一版本中开启此设置。
您还可以更改是否使用时间感知训练,或更改用作日期索引的列。
执行以下操作:
-
单击 查看配置。
-
如果需要,单击 创建新版本 以配置新的实验版本。
-
在面板中,展开 模型优化。
-
在 智能 和 手动 设置之间切换,以开启或关闭智能模型优化。
-
如果您想激活超参数优化,请选中 超参数优化 复选框并设置最大训练时间。
-
在 基于时间的测试-训练拆分 下,您可以更改时间感知训练的设置:
-
要开启时间感知训练,请通过在数据集中选择特定的 日期索引 列来更改默认值 无。
-
要关闭时间感知训练,请将 日期索引 设置为值 无。
-
将选定的 日期索引 列更改为其他列。
-
删除实验版本
您可以删除不想保留的实验版本。请注意,实验版本中的所有模型也将被删除且无法恢复。
执行以下操作:
-
切换到 模型 选项卡。
-
在 模型指标 表中,从要删除的实验版本中选择一个模型。
提示注释当您在 训练数据 或 分析 选项卡上时,也可以使用工具栏中的下拉菜单选择模型。 -
在右下角,单击 删除 <版本号>。
-
在确认对话框中,单击 删除。