配置实验 | Qlik Cloud帮助
跳到主要内容 跳到补充内容

配置实验

实验配置包括选择目标以及模型将用于预测该目标的特性。您还可以配置许多可选设置。

为了支持您选择目标,系统会分析历史数据集,并显示数据集中每个列的汇总统计信息。对数据集应用了几个自动预处理步骤,以确保仅包含合适的数据。有关数据预处理的更多详细信息,请参阅 自动数据准备和转换

运行 v1 后,如果需要进一步细化模型训练,您可以创建新的实验版本。有关更多信息,请参阅 微调模型

要求和权限

要了解有关使用 ML 实验的用户要求的更多信息,请参阅 使用实验

界面

以下部分概述了如何导航实验界面以配置您的实验。有关界面的更多信息,请参阅 导航实验界面

选项卡式导航

创建实验时,会打开 配置 选项卡。您可以在此处为实验配置目标和特性。

在运行至少一个实验版本后,配置 选项卡将变为 训练数据。其他选项卡也将变得可用。这些其他选项卡允许您分析刚刚在该版本中训练的模型。如果您需要使用不同的特性选择来配置后续版本,可以返回到 训练数据 选项卡。

架构视图数据视图

配置/训练数据 选项卡中,您可以在以下视图之间进行切换:

  • 行 架构视图:默认视图。在此视图中,数据集中的每个列都由架构中的一行表示,并带有信息和统计数据。

  • 表 数据视图:一种替代视图,可用于访问每个列的更多信息和样本数据。

ML 实验中的 架构视图

ML 实验中的架构视图

ML 实验中的 数据视图

ML 实验中的数据视图

实验配置面板

在实验配置面板中,您可以进一步自定义实验训练。在新的实验中,此面板默认打开。

运行版本后,单击 控件 查看配置 打开面板以配置下一个版本。

通过实验配置面板,您可以:

  • 选择目标和实验类型

  • 设置版本名称

  • 添加或删除特性

  • 配置实验的新版本

  • 查看您正在训练的模型类型

  • 选择更改或刷新训练数据集

  • 添加或删除算法

  • 更改模型优化设置

  • 对于时间序列模型,设置预测设置

  • 配置偏差检测

实验配置面板

实验配置面板,其中包含选定的目标、实验类型和默认特性选择

选择目标和实验类型

在开始第一次训练之前,您可以更改目标列和实验类型。在此之后,它们将被锁定以防编辑。

目标列包含您希望机器学习模型预测的值。

实验类型由目标及其包含的数据类型决定。实验类型定义了您要训练的模型类型。以下选项可能可用:

  • 二分类:训练模型以预测具有两个可能值(例如,是或否)的目标。数据可以是任何特性类型。

  • 多分类:训练模型以预测具有 3-10 个可能值(例如,类别列表)的目标。数据可以是任何特性类型,但具有 10 个以上不同非数值类别(值)的列不能被选为目标。

  • 回归:训练模型以预测具有 10 个以上可能值的目标,具体而言,是具有数值特性类型的目标。

  • 时间序列:训练模型以利用历史数据预测特定未来时间段的目标值。目标必须具有 10 个以上不同的值并具有数值数据。有关更多信息,请参阅 使用时间序列实验

  1. 行 架构视图表 数据视图 中,将鼠标悬停在列上。

  2. 单击出现的 目标 图标。

    目标列现在由 目标 指示,其他可用列将自动被选为特性。

    架构视图 中选择目标

    带有目标符号的数据集列。
  3. 在实验配置面板中的 实验设置 下,如果需要,您可以在训练前更改目标。

  4. 信息注释实验设置 可能包含 实验类型 选择器。例如,如果您的数据集和目标可以进行时间序列预测,则可以选择将实验类型从 回归 更改为 时间序列

选择目标和实验类型后,您可以开始运行实验的第一个版本。在 训练实验 中阅读更多内容。您可以在此时进行其他配置(如下所述),或者在查看训练结果后调整配置。

随着实验训练的继续,系统会显示有关如何解释和处理数据的说明。有关更多信息,请参阅 解释数据集洞察

选择特性列

设置目标后,您可以选择将哪些其他可用列包含在模型的训练中。排除您不希望作为模型一部分的任何特性。请注意,该列将保留在数据集中,但不会被训练算法使用。

在实验配置面板的顶部,您可以看到数据集中的单元格数量。如果该数量超过了您的数据集限制,您可以排除特性以使其低于限制。

您可以通过多种方式选择特性列:

架构视图数据视图

在主视图中,您可以:

  • 取消选择 包括所有可用特性,然后仅选择您要包括的特性。

  • 手动清除您不想包括的特性的复选框。

  • 进行搜索,并在过滤后的搜索结果中排除或包括所有特性。

在实验配置面板中

在实验配置面板中,您可以:

  • 手动清除您不想包括的特性的复选框。

  • 在运行实验的第一个版本后,您可以定义 要包括的热门特性数量

实验配置面板中的 特性 部分

Qlik Predict 实验配置面板中的特性部分

当您选择特性时,系统会自动为其分配特性类型。可能的特性类型有:

  • 分类

  • 数值

  • 日期

  • 自由文本

特性类型是根据特性列中包含的数据分配的。如果某个特性符合特定标准,它可能会被选为自动工程化特性的基础。如果需要,您可以更改该特性是否用于自动特性工程。有关自动特性工程的完整详细信息,请参阅 自动特性工程

数据集中的某些列可能无法选为实验的特性,或者可能对其应用了特定的处理。在您导航实验训练时,系统会显示有关如何解释和处理数据的说明。有关更多信息,请参阅 解释数据集洞察

配置偏差检测

您可以为包含敏感数据的特性激活偏差检测。偏差检测在您运行实验时执行。您还可以单击 获取建议,在运行偏差检测之前使用生成式 AI 扫描您的训练数据以查找可能敏感的特性。

偏差检测可确定该特性是否会增加模型在其预测中产生不公平结果的可能性,或者源数据是否本身存在偏差。

  1. 在机器学习实验中,在训练配置面板中展开偏差

  2. 在选择用于偏差检测的特性之前,(可选)单击获取建议以使用生成式 AI 建议可能包含偏差数据的特性。请参阅使用生成式 AI 推荐用于偏差检测的功能

  3. 选择或取消选择您要对其运行偏差检测的任何特性。

或者,在行架构视图中为所需功能开启偏差检测。

有关偏差检测的更多信息,请参阅 检测机器学习模型中的偏差

选择算法

默认情况下包括所有可用算法,您可以排除任何不想使用的算法。通常,在看到第一批训练结果后,您会将其作为模型细化的一部分来进行此操作。在 微调模型 中阅读更多内容。

实验配置面板中的 算法 部分

Qlik Predict 实验配置面板中的算法部分。

更改特性类型

加载数据集时,将根据数据类型和其他特征将列视为分类、数值、日期或自由文本。在某些情况下,您可能需要更改此设置。

For example, if the days of the week are represented by the numbers 1-7, each number represents a categorical value. By default, it is treated as a continuous ranked numeric value, so you would need to manually change the configuration to treat it as categorical.

当某一列被识别为包含日期 and 时间信息时,它将被用作新生成的自动工程化特性的基础。发生这种情况时,原始列(父特性)将被视为具有日期特性类型。

您可以将父特性从日期特性更改为分类或数值特性。例如,当某个特性被识别为日期,但您需要将其视为字符串或数字时,这非常有用。执行此操作时,您将无法再在实验训练中使用其自动工程化特性。

  1. 行 架构视图 中,找到该特性。

  2. 在此特性的 特性类型 列中,单击 向下箭头

  3. 在列表中选择一个值。

您也可以选择从 表 数据视图 更改特性类型。找到该特性,然后单击当前特性类型旁边的 向下箭头。在列表中选择一个值。

时间序列预测

如果您正在训练 时间序列实验,系统会根据您的配置自动应用某些特性类型转换。例如,如果您选择用于多元预测的任何组,这些组的特性类型将自动切换为分类。

对预测的影响

当您手动更改特性的特性类型,然后部署生成的模型时,特性类型覆盖项将应用于应用数据集中的特性,该数据集用于使用该模型进行的预测。

更改数据集

您可以在运行第一个实验版本之前以及运行任何版本之后更改训练数据集。

如果您在运行第一个版本之前更改数据集,您将丢失在更改数据集之前进行的所有配置。

  1. 在实验配置面板中的 训练数据查看数据集 下,单击 更改数据集

  2. 选择新数据集。

有关在模型细化期间(运行实验版本后)更改和刷新数据集的更多信息,请参阅 更改和刷新数据集

配置模型优化

如果您的 实验类型二分类多分类回归,您可以调整以下设置来优化模型:

  • 开启或关闭智能模型优化

  • 开启或关闭超参数优化

  • 开启或关闭时间感知训练

对于您运行的每个实验版本,都可以开启或关闭这些选项。

实验配置面板中的 模型优化 部分

Qlik Predict 训练配置面板中的模型优化部分

配置智能优化

默认情况下,实验使用智能模型优化。通过智能模型优化,Qlik Predict 通过迭代特性选择并对数据应用高级转换,为您处理模型细化过程。

有关智能优化的更多信息,请参阅 智能模型优化

您可以关闭此设置以手动细化您训练的模型。例如,您可能希望通过智能模型优化开始模型训练,然后切换到 v2 的手动细化以进一步调整配置。

  1. 单击 控件 查看配置

  2. 如果您已经运行了至少一个实验版本,请单击 新版本

  3. 在面板中,展开 模型优化

  4. 智能 切换到 手动

  5. 使用滑块设置训练的最大运行持续时间。

配置超参数优化

您可以使用超参数优化来优化模型。请注意,这是一个高级选项,可能会显著增加训练时间。如果关闭智能优化,则可以使用超参数优化。

有关更多信息,请参阅 超参数优化

  1. 单击 控件 查看配置

  2. 如果您已经运行了至少一个实验版本,请单击 新版本

  3. 在面板中,展开 模型优化

  4. 智能 切换到 手动

  5. 选择 the 超参数优化 复选框。

  6. (可选)为您的优化设置时间限制。默认时间限制为一小时。

配置时间感知训练

如果您希望在训练模型时考虑时间序列维度,请为该实验版本激活时间感知训练。要使用此选项,您的数据集中需要有一列包含相关的时间序列信息。

开启时间感知训练后,Qlik Predict 会使用专门的交叉验证和空值插补过程来训练模型。

有关更多信息,请参阅 创建时间感知模型基于时间的交叉验证

  1. 单击 控件 查看配置

  2. 如果您已经运行了至少一个实验版本,请单击 新版本

  3. 在面板中,展开 模型优化

  4. 基于时间测试-训练拆分 下,选择用于对数据进行排序的 日期索引

查看有关训练数据的洞察

在实验的 配置/训练数据 选项卡中,您可以查看有关训练数据处理的洞察。此信息可在 表行 架构视图 中的 洞察 列中找到。显示的信息取决于您是否已使用当前训练数据运行过版本。洞察 列中的更改可以帮助您确定为什么特性可能无法使用,或者为什么它们已被自动删除。

有关每个洞察含义的更多信息,请参阅 解释数据集洞察

相关学习:

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!