示例 - 使用自动机器学习训练模型
在这个例子中,您将使用智能模型优化来训练机器学习模型。通过智能模型优化,AutoML 为您处理迭代和优化模型的过程。
有关智能模型优化的更多信息,请参阅智能模型优化。
您将学到的内容
在这个例子中,您将学习:
-
如何创建和配置 ML 实验
-
智能优化如何提供自动模型优化
-
如何查看和分析训练结果
其他考虑事项
智能模型优化在提供准备充分的数据集的情况下,对改进模型有很大帮助。为了确保您的模型在真实世界的用例中具有高质量,您必须首先遵循结构化框架,并准备一个包含相关特性和数据的训练数据集。有关更多信息,请参阅:
对于每个实验版本,可以选择关闭智能模型优化。如果您关闭此设置,则需要手动优化模型。如果您想对实验配置进行特定调整,手动优化可能会有所帮助。您可以运行一个具有智能模型优化的版本,然后将其关闭以进行细微的手动调整,同时仍然受益于它提供的自动优化。
这个例子涵盖了使用智能优化的实验训练。有关如何使用手动优化的完整教程,请参阅教程 - 生成和可视化预测数据。本教程还提供了端到端指导,涵盖部署模型、进行预测和使用交互式 Qlik Sense 应用程序可视化预测数据。
谁应该完成该示例
您应该完成这个示例,学习如何使用智能模型优化来完善您的机器学习模型。
要完成此示例,您需要以下内容:
-
专业或 Full User 授权
-
租户中的 Automl Experiment Contributor 安全角色
-
如果您在协作空间工作,则需要您将在其中工作的空间要求的空间角色。参阅: 管理共享空间中的权限
如果您无法查看或创建 ML 资源,这可能意味着您没有所需的角色、权利或权限。请联系您的租户管理员以获取更多信息。
有关更多信息,请参阅谁可以使用 Qlik AutoML。
在开始之前需要做的工作
下载该程序包并将其在您的桌面上解压:
该程序包含有您将用于训练模型的训练数据集。数据集包含有关客户的信息,这些客户的续订期限已过,并已决定放弃或继续订阅该服务。
执行以下操作:
-
打开 Analytics 活动中心。
-
转到“创建”页面,选择数据集,然后选择上传数据文件。
-
将 AutoML Example - Churn data - training.csv 文件拖到上传对话框。
-
选择空间如果您希望其他用户能够访问此数据,它可以是您的个人空间或共享空间。
-
单击上传。
现在数据集已上传,您可以继续创建实验。
第 1 部分:创建实验
执行以下操作:
-
转到 Analytics 活动中心的“创建”页面,然后选择 ML 实验。
-
为您的实验输入一个名称,例如智能优化示例。
-
(可选)添加描述和标记。
-
为您的实验选择一个空间。它可以是您的个人空间或共享空间。
-
单击创建。
-
选择 AutoML Example - Churn data - training.csv 文件。
第 2 部分:配置实验
接下来,我们可以配置实验。
智能模型优化比手动优化需要的初始配置更少。在这种情况下,我们将选择一个目标并使用默认包含的所有特性。
选择目标
我们希望我们的机器学习模型能够预测客户流失,因此我们选择 Churned(数据集中的最终列)作为我们的目标。
在实验中,数据标签应该是唯一显示的标签。您可以通过多种方式选择目标,但在这里我们使用默认打开的 模式视图。
执行以下操作:
-
在模式中,将鼠标悬停在 Churned 上方并单击出现的目标 图标。
确认特性选择
选择目标后,默认情况下会包括所有可用和推荐的特性。在 模式视图中,确认除两个特性外,其他所有特性都包含在内。每个包含的特性旁边都应该有已填写的复选框。Country 无法供使用。由于基数较大,不建议使用 AccountID,因此我们将其保留为未选中状态。
确认智能优化
应在页面右侧打开一个面板以便配置其他设置。我们想检查智能模型优化是否已打开。
执行以下操作:
-
如果实验配置面板未打开,请单击 视图配置将其打开。
-
在面板中,展开模型优化。
-
所选的优化选项应为智能。
运行训练
单击页面右下角的运行实验开始模型训练。
第 3 部分:查看结果
训练完成后,将出现并打开模型标签。您可以在此处查看训练期间执行了哪些优化。标有 图标的表现最佳的模型会自动被选中。让我们分析一下这个模型。
查看模型训练摘要。这显示了此模型的智能优化结果。在这种情况下,我们可以看到以下特性被删除,并提供了删除它们的原因:
-
DaysSinceLastService 由于疑似存在目标泄露而删除。在这种情况下,该列包含逻辑不正确的数据。对于取消服务的客户(在某些情况下为几年前),自上次服务工单以来的天数仍在积极计算中。需要删除此特性,因为它会给模型带来错误的性能分数,如果部署,会导致模型性能非常差。请参阅数据泄露
-
PriorPeriodUsage 和 PriorPeriodUsage-Rounded 由于它们与另一个特性的相关性太高而被删除。与它们相关的特性仍然包含在训练中。参阅关联。
-
由于排列重要性较低,CurrentPeriodUsage、CustomerTenure、StartMonth、Territory、DeviceType 和 StartWeek 均被删除。对模型影响较小的特性被视为统计噪声,可以将其删除以提高性能。参阅了解排列重要性。
现在这些特性被删除了,我们可以看到显示最有影响力的特性的可视化,以及模型预测性能的一些指标。您在这些图表中看到的内容可以帮助您评估特性集中是否缺少某些内容,或者结果是否存在偏差。
有关使用这些可视化分析模型的更多信息,请参阅执行快速模型分析。
更深入地探索分析
如果您想进一步探索模型指标,请切换到实验中的比较和分析标签。这些标签为您提供了更精细、交互式的指标视图。
有关更多信息,请参阅比较模型和执行 详细的模型分析。
后续步骤
有了高质量的数据集,智能优化可以创建易于部署的模型,几乎不需要进一步迭代。从这一点来看,建议您部署性能最佳的模型。否则,您可以继续手动优化模型,或更新训练数据并再次运行智能模型优化。
有关后续步骤的更多信息,请参阅:
谢谢!
您已经完成了此示例。我们希望您已经了解了如何使用智能模型优化来轻松训练准备好部署的机器学习模型。
延伸阅读和资源
- Qlik 提供了各种各样的资源帮助您进行深入学习。
- Qlik 在线帮助可用。
- 培训,包括免费的在线课程,可在 Qlik Continuous Classroom 获取。
- 讨论论坛、博客等可见于 Qlik Community。
您的意见很重要
我们感谢您的任何反馈。请使用下面的部分让我们了解我们做得怎样。