创建和配置实验
第一步是创建和配置实验。您将使用之前上传的训练数据集来训练模型,直到它准备好部署以进行预测。
创建新实验
执行以下操作:
-
转到 Analytics 活动中心的“创建”页面,然后选择 ML 实验。
-
输入实验的名称,例如,客户流失教程。
-
(可选)添加描述和标记。
-
为您的实验选择一个空间。它可以是您的个人空间或共享空间。
-
单击创建。
-
选择训练数据集文件。根据您使用的是 CSV 还是 QVD,此项将是以下之一:
-
AutoML Tutorial - Churn data - train.csv
-
AutoML Tutorial - Churn data - train.qvd
-
审查数据
现在,您已经准备好开始配置实验,但在开始之前,让我们先看看数据集。
我们从数据标签开始。默认视图是 模式视图。在这里,我们可以看到一个表,其中每一行表示数据集中的一列。在自动数据准备中生成了统计数据和见解。您可能必须滚动到模式的右侧才能查看见解。
我们可以看到,由于基数较高,AccountID 已被排除在外。这意味着该列包含太多的唯一值。由于相反的原因,特性 Country 被排除在外:所有行的值都相同。这两个特性不会为机器学习模型提供任何价值。
我们还可以看到,分类特性 Territory 已被 impact encoded。将鼠标悬停在警告 和信息
图标上以获取更多信息。
Qlik AutoML 中用于训练数据集的模式视图

单击 数据视图。在该视图中,我们可以看到关于每一列的更多信息,包括示例数据。
数据视图

选择目标
我们希望我们的机器学习模型能够预测客户流失,因此我们选择 Churned(数据集中的最终列)作为我们的目标。
执行以下操作:
-
切换回
模式视图。
-
将鼠标悬停在 Churned 上并单击出现的目标
图标。
架构视图中的行被选为目标

在实验配置面板上,我们现在可以看到 Churned 已被选中。我们还可以看到哪些特性是自动选择和排除的。由于 Churned 是目标,因此不会将其用作特性。我们还可以看到,这个实验将被视为一个二元分类问题。
实验配置面板中显示的信息

选择特性
在我们的第一次实验中,我们将包括默认选择的所有特性和算法。但是,如果根据您的业务知识,您已经知道某些特性对目标没有影响,那么此时可以取消选择这些特性,将其排除在训练之外。
更改优化设置
默认情况下,智能模型优化处于打开状态。通过智能模型优化,AutoML 可自动完善模型训练。但是,本教程的目标是向您展示如何手动识别特性数据和训练结果中的某些问题。
有关如何使用智能模型优化训练模型的示例,请参阅示例 - 使用自动机器学习训练模型。
让我们关闭智能模型优化,以演示手动优化。
执行以下操作:
-
在实验配置面板中,展开模型优化部分。
-
从智能切换到手动。
在实验配置面板中切换到手动优化

训练实验
配置完成,我们准备开始训练。
执行以下操作:
-
在实验窗口右下角,单击运行实验。
当实验完成运行后,我们可以继续下一步,即检查生成的模型度量。