在 Qlik Sense 应用程序中可视化预测数据
该过程的最后一步是创建一个 Qlik Sense 分析应用程序,将您生成的预测数据可视化。
备选工作流程:上传预先配置的应用程序
您可以将在本教程开始时下载的 Customer churn predictions.qvf 应用程序上传到 Analytics 活动中心,而不是遵循本主题中的其余步骤。
本页的其余部分将指导您创建类似的应用程序。应用程序中的预测数据和您自己的预测数据之间会有一些差异。
可下载的应用程序包含一个标题为 Individual Customer Analysis 的附加表,该表使用条件表达式来鼓励一次对单个客户帐户进行精细分析。
入门
从 Analytics 活动中心,转到“创建”页面,然后单击 Analytics 应用程序。为应用程序选择一个空间,并将其命名为 Customer churn predictions。
单击创建。
创建数据模型
选择数据
您需要将必要的数据添加到您的应用程序中。这包括应用数据集(在教程开始时上传)和预测生成的两个数据集。
执行以下操作:
-
在新应用程序中,单击以从数据目录中添加数据。
-
在数据目录中,单击以下三个数据集旁边的复选框:
-
应用数据集:AutoML Tutorial - Churn data - apply.csv 或 AutoML Tutorial - Churn data - apply.qvd
-
预测数据集:AutoML Tutorial - Churn data - apply_Prediction.csv
-
坐标 SHAP 数据集:AutoML Tutorial - Churn data - apply_Prediction_Coordinate_SHAP.csv
-
-
单击下一步。
-
此时会出现一个摘要面板。单击 AutoML Tutorial - Churn data - apply.csv 数据集以展开要加载的可用字段。
-
单击在模型训练过程中取消选择的任何特性旁边的 图标。这应该是 DaysSinceLastService,以及由于对模型的影响较小而取消选择的任何特性。
-
单击加载到应用程序。
关联数据
此时,您已将数据添加到应用程序中,但在将数据集关联在一起之前,不会构建连接的数据模型。在这种情况下,AccountID 字段将是将数据集链接在一起的索引。
在您的应用程序中,数据管理器现已打开。您将看到这三个数据集,但它们显示为未连接的独立实体。
执行以下操作:
-
在您的应用程序中,数据管理器现已打开。您将看到这三个数据集,但它们显示为未连接的独立实体。
-
在数据管理器的右侧窗格中,找到 AccountID 关联建议。
-
单击应用。现在应该将这些表连接在一起。
-
单击加载数据。
在 数据模型查看器 中检查您的关联
在应用程序中构建任何可视化之前,您应该验证数据是否已正确关联。
执行以下操作:
-
在界面顶部的导航栏中,打开应用程序导航菜单并选择 数据模型查看器。
-
检查三个数据集是否已正确连接。AccountID 字段应作为所有三个数据集的键。应用程序的数据模型应如下图所示。
您现在可以开始构建分析内容了。在导航栏的分析选项卡中单击工作表。
第一个工作表:聚合预测仪表板
第一张工作表将重点分析聚合形式的预测。
执行以下操作:
-
您现在应当处于工作表编辑模式。单击高级选项。
-
在工作表中的任何现有可视化上单击鼠标右键,然后将其删除。这是一个图表建议特性,我们将不会在本教程中使用。
-
给工作表提供一个标题,例如 Aggregated Predictions。要执行此操作,请单击空白工作表中的任意位置以打开界面右侧的工作表属性。在标题下,键入工作表的名称。
饼图
饼图可以让您轻松地可视化数据的比例细分。在这种情况下,将数据分解为预测结果(yes 或 no)是有意义的。
执行以下操作:
-
将饼图拖动至工作表。
-
将 Churned_predicted 作为维度添加。
-
将 Count(AccountID) 作为度量添加。
-
如果需要,请关闭属性面板中外观 > 演示下的维度标签。
-
在属性面板的数据下展开维度,并将维度的标签修改为 Predicted to Churn。
图例中的标签会更新。
筛选器窗格
此仪表板将用于对整个数据模型进行广泛分析。然而,几乎可以肯定的是,能够快速筛选各个维度的数据以分析特定的队列是很重要的。
创建一个包含多个列表框的筛选器窗格。每个列表框都允许在单个维度内选择值。
执行以下操作:
-
将某筛选器窗格拖到表格上。
-
将字段添加到筛选器窗格中。这些可能是您期望对预测结果具有重要意义的维度。
-
根据需要修改每个列表框,方法是单击属性面板中数据下的字段。这将打开列表框属性。
例如,您可能希望更改字段标签,并将折叠列表框设置为始终以节省工作表空间。
调整筛选器窗格的大小,使其显示为工作表一侧的面板。
KPI 对象
KPI 是显示对数据特别重要的分析的单个值的好方法。在这里,我们将创建三个 KPI 图表。
执行以下操作:
-
创建空白 KPI 图表。添加以下度量:
=Count(Churned_predicted)
这将计算我们为其生成流失预测的客户总数。
-
将度量标记为 Total # of Customers。
-
将数字格式设置为数字,并以 1000 格式显示值(不含小数或百分比值)。
-
创建另一个空白 KPI 图表。添加以下度量:
=Count({<Churned_predicted={"yes"}>}(Churned_predicted))
这是一个集合表达式,用于计算在 Churned_predicted 字段中显示 yes 值的次数。
-
将度量标记为 Predicted to Churn。
-
使用与第一个 KPI 相同的设置配置图表的数字格式。
-
创建第三个空白 KPI 图表。添加以下度量:
=Count({<Churned_predicted={"no"}>}(Churned_predicted))
这将计算 no 值在 Churned_predicted 字段中显示的次数。
-
将度量标记为 Predicted to Stay。
直方图
您可以使用直方图来可视化预测概率值的分布。
将直方图拖动到工作表中,并为其指定标题。将“Churned_yes”添加为维度。
堆叠条形图
要按类别字段(如计划类型)分析预测,可以创建一个条形图,将各个集合分析叠加在一起。
执行以下操作:
-
将条形图拖到工作表上,并将其标题命名为 Churn Predictions by Plan Type。
-
将 PlanType 作为维度添加。将其标记为 Plan Type。
-
添加以下度量:
=Count({<Churned_predicted={"no"}>}(Churned_predicted))
将度量标记为 Predicted to Stay。
-
添加以下度量:
=Count({<Churned_predicted={"yes"}>}(Churned_predicted))
将度量标记为 Predicted to Churn。
-
在外观 > 演示下,将布局从成组更改为堆叠。
-
移除滚动条并将值标签设置为开。
-
将段标签和总计标签配置为自动。
完成后,您可以创建一个类似的条形图,该条形图具有相同的两个度量,但具有不同的分类维度,例如NumberOfPenalties。
用于分析单个数值字段值的分布图
分布图可用于通过具有不同数值的度量来显示预测数据。在本部分中,您将创建一个图表,按基本费用显示流失预测,并为客户的服务评级进行不同的分组。
执行以下操作:
-
将分布图拖到工作表上并将其命名为 Churn Predictions by Base Fee and Service Rating。
-
添加 AccountID 作为点的维度。
-
在 x 轴上添加以下度量:
=Avg(BaseFee)
-
在 y 轴上添加以下计算维度:
=Round(ServiceRating,2)
这将为近似 ServiceRating 值创建沿 y 轴的分组。值越大,客户对其服务质量的评价就越高。
-
在外观 > 演示 下,将气泡大小减小到 20 并启用抖动点。
-
在颜色和图例中,将颜色设置为自定义。
-
选择按以下维度为数据着色的选项:
=Churned_predicted
这将为 Churned_predicted 字段中的每个值指定一种颜色。在这种情况下,将显示两种颜色。
-
将标签添加到维度和度量中,并将以下标签添加到自定义颜色设置中:预测会流失。
通过用其他字段聚合代替 BaseFee 度量,可以为不同数值字段的分析创建类似的图表。
将工作表上的可视化配置为与下图相似的形式。
第二个工作表:聚合 SHAP 仪表板
接下来,创建一个专门用于分析聚合 SHAP 值的工作表。
执行以下操作:
-
创建新工作表并打开高级编辑模式。
-
给工作表提供一个标题,例如 Aggregated SHAP。
SHAP 重要性排名
这种类型的图表类似于您在配置实验版本时可能看到的自动生成的图表。在这里,我们将为预测数据集制作一个。
这类图表的目的是显示对 Churned 列中的结果贡献最大的特性。我们需要注意,因为我们将使用绝对值,所以 SHAP 结果可以是正值(值为 yes)或负值(值为 no)。如果愿意,也可以使用不计算绝对值的表达式。
执行以下操作:
-
将条形图拖到空白工作表上。
-
将图表命名为 SHAP Importance by Feature。
-
添加 automl_feature 作为维度,并将其标记为 Feature。
这允许您显示所有包含特性的聚合数据。
-
添加以下计算度量值:
=fabs(Avg(SHAP_value))
-
在标签下,键入 Average Absolute SHAP。
-
在“属性”面板的外观 > 演示下,删除滚动条(如果存在),并将图表方向从垂直设置为水平。
-
在排序下,如果尚未完成,请将度量拖到维度上方。将每个字段的排序保留为自动。
这将按度量值以降序对图表进行排序。
网格容器
可以创建网格容器来筛选维度中特定字段值的数据。在这种情况下,我们可以分解向客户提供的四种计划类型中的每一种的 SHAP 值。
要创建网格对象,需要指定维度和主可视化。我们将把刚刚创建的 SHAP 重要性排名转换为主可视化。
执行以下操作:
- 右键单击工作表中的 Average Absolute SHAP 图表,然后选择 添加至主条目。
- 保留默认名称并单击添加。
-
在资产面板中的自定义对象 > Qlik 可视化捆绑包下,将网格容器拖到工作表上。
-
将 PlanType 作为维度添加。
-
单击图表中的添加主可视化,然后添加 Average Absolute SHAP 图表。
-
在属性面板中的外观 > 常规下,启用显示标题,并将图表标题命名为 SHAP Importance by Plan Type。
-
调整格子容器的大小,使其足够宽,可以显示图表中的特性名称。如果没有显示所有标签,请调整浏览器窗口中的缩放。
或者,您可以通过为要分析的每个维度值创建带有集合表达式的单独图表来显示此数据。在这种情况下,您可以为四种计划类型中的每一种创建单独的图表。
重新使用筛选器窗格
您在第一张工作表上创建的筛选器窗格可以在此工作表上重复使用。在高级编辑模式下,右键单击筛选器窗格并复制它。将其粘贴到 Aggregated SHAP 工作表中。
树形图
您还可以使用树映射可视化 SHAP 值的细分。将树图拖到工作表上,然后添加与 SHAP 重要性排序中使用的维度和度量相同的维度和度量。
将工作表上的可视化配置为与下图相似的形式。
使用应用程序
完成应用程序的构建后,它就可以用于数据分析了。
单击编辑工作表切换到分析模式。在此视图中,您可以(在筛选器窗格或工作表的其他位置)进行选择,以筛选数据,从而对数据子集进行特定分析。例如,您可能希望分析特定的客户计划类型或地区,并将结果与其他数据子集进行比较。
谢谢!
您已经完成本教程的学习。我们希望您已经学到了一些东西,并认识到自动机器学习是生成预测模型的快速而简单的方法。Qlik Sense 是一个强大的工具,它可以轻松可视化预测数据,并对数据提供有意义的见解。