跳到主要内容 跳到补充内容

检查模型

为了评估机器学习模型,您需要能够理解模型得分和度量。在某些情况下,了解每个字段和值如何影响预测结果,为什么会发生某些事情可能比做出预测更重要。

为什么模型评分很重要

不同模型分数的目的是了解模型的优势。这将增加您对模型可用性的信心,并显示可以进行哪些改进。如果得分很高或很低,则可能表明输入模型的数据存在问题。

为模型打分是一项具有挑战性的任务,因为有几个度量描述了模型的不同方面。要知道它是否是一个良好的模型,您需要将业务领域知识与对模型所用的各种评分度量和数据的理解结合起来。在一个用例中看起来很糟糕的分数,可能是一个很好的分数,并在另一个用例的投资中产生很高的回报。

最重要的度量:汽车类比

哪个度量最重要?这取决于您计划如何使用模型。没有度量可以告诉您想知道的一切。

打个比方,考虑买辆车。有很多不同的度量需要考虑,例如燃油效率、马力、扭矩、重量和加速度。我们可能希望它们都很好,但我们必须根据计划如何使用汽车做出权衡。通勤者可能想要一辆燃油效率高的汽车,即使它意味着低扭矩,而船主可能会选择高扭矩,即使这意味着低燃油效率。

一个模型可以用同样的方式来思考。我们希望所有的度量都很高,我们可能可以用更多的数据和更好的功能来改进它们,但总是需要进行约束和权衡。有些分数更重要,这取决于你打算对模型做什么。

这个模型合适吗?

确定一个模型是否适合用例,是否适合投入生产,最终归结为以下问题:“该模型是否足够准确,能够在没有不可接受后果的情况下获得不错的投资回报?” 以下四个问题可以帮助你分解它。

模型是通知人类决策还是自动决策?

所需的准确性取决于您是否将使用模型来自动化或通知决策。例如,可以训练一个模型来确定员工应该赚多少钱。在这种情况下,如果模型是自动化决策,那么与仅通知决策相比,准确性可能需要更高。如果管理者用它来发现员工的工资是少还是多,那么他们可以自行判断模型是否错误。

假正面或假负面是否有可量化的成本?

您能量化错误结果的成本吗?当您确定将模型视为良好拟合所需的精度级别时,请将该成本考虑在内。

使用与上面相同的示例,假设模型只是通知。然而,经理信任该模型,不给员工加薪,因为该模型输出的结果是,如果加薪,员工将获得超额报酬。该员工随后辞职到其他地方工作。失去那个员工的代价是什么?如果情况正好相反,那么虚假加薪的代价会是什么?

模型比随机模型好多少?

对于回归问题,如果始终假设目标列的平均值,则确定错误会是什么。与此相比,该模型好多少?

对于分类问题,取正类平方率,并将其与负类平方率相加,以获得随机精度。模型精度比这个好多少?

这个模型比发出最后通牒更好吗?

根据是否存在与错误相关的成本,考虑模型是否优于最后通牒。例如,假设一家公司正在进行免费咨询,这种咨询既昂贵又耗时 ($6,000),但在交易结束时却能赚大钱 ($60,000)。该公司目前的运作假设是 100% 的咨询将结束。然而,如果他们能够决定哪些咨询应该做,哪些不应该做,他们将获得更好的利润。为了让公司使用模型输出而不是最后结论 100% 的交易将完成,模型的准确性需要达到什么程度?

了解详情

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!