创建并配置实验
第一步是创建并配置实验。您将使用之前上传的训练数据集来训练模型,直到其准备好进行部署以做出预测。
创建新实验
执行以下操作:
-
转到 分析 活动中心 的“创建”页面,然后选择 ML 实验。
-
输入实验的名称,例如 Customer churn tutorial。
-
(可选)添加描述和标签。
-
为您的实验选择一个空间。它可以是您的个人空间或共享空间。
-
单击 创建。
-
选择训练数据集文件。根据您使用的是 CSV 还是 QVD,这将是以下之一:
-
ML - Churn data - training.csv
-
ML - Churn data - training.qvd
-
审查数据
现在您已准备好开始配置实验,但在开始之前,让我们先看一下数据集。
我们从 配置 选项卡开始。默认视图是 架构视图。在这里我们可以看到一个表,其中每一行代表数据集中的一列。统计信息和洞察已在自动数据准备中生成。您可能需要滚动到架构的右侧才能看到 洞察。
我们可以看到,由于高基数,AccountID 已被排除。这意味着该列包含太多唯一值。特性 Country 已被排除:所有行的值都相同。这两个特性不会为机器学习模型提供任何价值。
我们还可以看到分类特性 Territory 已被影响编码。将鼠标悬停在警告 和信息
图标上以获取更多信息。
Qlik Predict 中训练数据集的 架构视图
单击 数据视图。在此视图中,我们可以看到关于每列的更多信息,包括样本数据。
数据视图
选择目标
我们希望我们的机器学习模型能够预测客户流失,因此我们选择数据集中的最后一列 Churned 作为我们的目标。
执行以下操作:
-
切换回
架构视图。
-
将鼠标悬停在 Churned 上,然后单击出现的靶心
图标。
架构视图中的一行被选为目标
在实验配置面板中,展开 实验设置。您可以看到 Churned 已被选为目标。根据您的目标和可用的特性数据,实验类型 为 二分类。
您还可以看到哪些特性是被自动选择和排除的。Churned 是目标,因此它不会用作特性。
配置面板中显示的信息
特性选择和模型优化
默认情况下,实验设置为使用智能模型优化。要进行确认,请展开实验配置面板中的 模型优化。应选择 智能 选项。
在配置面板中确认智能模型优化

特性选择可以在配置面板的 特性 部分进行手动配置。通过智能模型优化,特性选择将通过删除无用特性来自动处理。开启此设置后,我们可以在训练中包含所有可用的特性。
训练实验
配置已完成,我们准备好开始训练。
执行以下操作:
-
单击 运行实验。
实验运行结束后,我们可以继续下一步,即审查生成的模型指标。