创建和配置实验
第一步是创建和配置实验。您将使用之前上传的训练数据集来训练模型,直到它准备好部署以进行预测。
创建新实验
执行以下操作:
-
在 Qlik Cloud 分析 应用中心内,单击新增,然后选择新 ML 实验。
-
输入实验的名称,例如,客户流失教程。
-
(可选)添加描述和标记。
-
为您的实验选择一个空间。它可以是您的个人空间或共享空间。
-
单击创建。
-
选择 Customer churn data - training.csv 文件。
审查数据
现在,您已经准备好开始配置实验,但在开始之前,让我们先看看数据集。
我们从模式视图开始。在这里,我们可以看到一个表,其中每一行表示数据集中的一列。在自动数据准备中生成了统计数据和见解。您可能必须滚动到模式的右侧才能查看见解。
我们可以看到,由于基数较高,AccountID 已被排除在外。这意味着该列包含太多的唯一值。由于相反的原因,特征 Country 被排除在外:所有行的值都相同。这两个特征不会为机器学习模型提供任何价值。
我们还可以看到,分类特征领土已被 impact encoded。将鼠标悬停在警告 和信息
图标上以获取更多信息。
Qlik AutoML 中用于训练数据集的模式视图

单击数据视图 图标以更改为数据视图。在这里,我们可以看到关于每一列的更多信息,包括示例数据。
数据视图

选择目标
我们希望我们的机器学习模型能够预测客户流失,因此我们选择流失(数据集中的最终列)作为我们的目标。
执行以下操作:
-
将鼠标悬停在流失上并单击出现的目标
图标。
架构视图中的行被选为目标

在实验配置面板上,我们现在可以看到 Churned 已被选中。我们还可以看到,19 个可能的特征中的 16 个被自动选择,除了 AccountID 和 Country,还有 Churned(目标),这个实验将被视为二进制分类问题。
实验配置窗格中显示的信息

选择特征
在我们的第一次实验中,我们将包括所有可用的特征和算法。但是,如果根据您的业务知识,您已经知道某些特征对目标没有影响,那么此时可以取消选择这些特征,将其排除在训练之外。
训练实验
配置完成,我们准备开始训练。
执行以下操作:
-
在实验窗口右下角,单击运行实验。
当实验完成运行后,我们可以继续下一步,即检查生成的模型度量。