创建和配置实验
第一步是创建和配置实验。您将使用之前上传的训练数据集来训练模型,直到它准备好部署以进行预测。
创建新实验
执行以下操作:
-
在 Qlik Cloud 分析 应用中心内,单击新增,然后选择新 ML 实验。
-
输入实验的名称,例如,客户流失教程。
-
(可选)添加描述和标记。
-
为您的实验选择一个空间。它可以是您的个人空间或共享空间。
-
单击创建。
-
选择 Customer churn data - training.csv 文件。
审查数据
现在,您已经准备好开始配置实验,但在开始之前,让我们先看看数据集。
我们从模式视图开始。在这里,我们可以看到一个表,其中每一行表示数据集中的一列。在自动数据准备中生成了统计数据和见解。您可能必须滚动到模式的右侧才能查看见解。
我们可以看到,由于基数较高,AccountID 已被排除在外。这意味着该列包含太多的唯一值。由于相反的原因,特性 Country 被排除在外:所有行的值都相同。这两个特性不会为机器学习模型提供任何价值。
我们还可以看到,分类特性 Territory 已被 impact encoded。将鼠标悬停在警告 和信息
图标上以获取更多信息。
Qlik AutoML 中用于训练数据集的模式视图
![单击以查看完整尺寸 表列包含有关特性的详细信息。](../../Resources/Images/AutomatedMachineLearning/ui_automl_tutorial-insights.png)
单击数据视图 图标以更改为数据视图。在这里,我们可以看到关于每一列的更多信息,包括示例数据。
数据视图
![单击以查看完整尺寸 表列包含有关特性的详细信息。](../../Resources/Images/AutomatedMachineLearning/ui_automl_tutorial-data_view.png)
选择目标
我们希望我们的机器学习模型能够预测客户流失,因此我们选择 Churned(数据集中的最终列)作为我们的目标。
执行以下操作:
-
单击架构视图
图标切换回架构视图。
-
将鼠标悬停在 Churned 上并单击出现的目标
图标。
架构视图中的行被选为目标
![单击以查看完整尺寸 所选目标的表行。](../../Resources/Images/AutomatedMachineLearning/tutorial-target.png)
在实验配置面板上,我们现在可以看到 Churned 已被选中。我们还可以看到哪些特性是自动选择和排除的。由于 Churned 是目标,因此不会将其用作特性。我们还可以看到,这个实验将被视为一个二元分类问题。
实验配置面板中显示的信息
![单击以查看完整尺寸 所选目标的表行。](../../Resources/Images/automl-tutorial-config-pane.png)
选择特性
在我们的第一次实验中,我们将包括默认选择的所有特性和算法。但是,如果根据您的业务知识,您已经知道某些特性对目标没有影响,那么此时可以取消选择这些特性,将其排除在训练之外。
训练实验
配置完成,我们准备开始训练。
执行以下操作:
在实验窗口右下角,单击运行实验。
当实验完成运行后,我们可以继续下一步,即检查生成的模型度量。