机器学习中的模型预测准确性与解释

在他们的著作《应用预测建模》中,Kuhn 和 Johnson 早期就评论了模型预测准确性与模型解释性之间的权衡。

对于给定的问题,明确优先考虑准确性还是可解释性至关重要,这样才能明确地而不是含蓄地进行这种权衡。

在本篇文章中,您将发现并思考这一重要的权衡。

model accuracy

模型准确性与可解释性
照片由 Donald Hobern 拍摄,保留部分权利

准确性与可解释性

模型性能通过其在未见数据上预测事件发生的能力来评估。模型越准确,价值就越高。

模型的可解释性提供了对输入和输出之间关系的洞察。一个可解释的模型可以回答为什么自变量会预测因变量的问题。

问题在于,随着模型准确性的提高,模型复杂度也随之增加,而可解释性却以牺牲为代价。

模型复杂度

更高的准确性模型可以为公司带来更多机会、好处、时间和金钱。因此,预测准确性得到了优化。

准确性的优化导致模型复杂度进一步增加,表现为额外的模型参数(以及调整这些参数所需的资源)。

不幸的是,最具预测能力的模型通常是最难解释的。

具有更少参数的模型更容易解释。这是显而易见的。线性回归模型为每个输入特征都有一个系数和一个截距项。例如,您可以查看每个项,了解它们对输出的贡献。转向逻辑回归提供了更强的建模潜在关系的能力,但代价是需要对输出进行函数变换,现在也必须理解这些变换以及系数。

决策树(大小适中)可能是可以理解的,而装袋决策树需要不同的视角来解释为什么会预测某个事件的发生。更进一步,将多个模型优化组合成一个预测,可能超出了有意义或及时的解释范围。

准确性胜过可解释性

在他们的书中,Kuhn 和 Johnson 关注的是以牺牲可解释性为代价的模型准确性。

他们评论说:

只要复杂模型得到适当验证,使用为解释性而非预测性能而构建的模型可能是不恰当的。

可解释性是模型准确性的次要因素,他们以垃圾邮件和非垃圾邮件的分类以及房屋评估为例,说明了这种情况。医疗案例被提及了两次,在这两种情况下都被用来捍卫绝对的准确性和可解释性,只要模型经过适当验证。

我敢肯定,“但我验证了我的模型”在模型做出导致生命损失的预测时,在质询中不会有任何辩护作用。然而,毫无疑问,这是一个需要仔细考虑的重要问题。

总结

无论何时对问题进行建模,您都必须在模型准确性和模型可解释性之间做出权衡。

您可以在选择建模问题的方法时利用这种权衡的知识,并在呈现结果时明确您的目标。

6 条对《模型预测准确性与机器学习中的解释性》的回复

  1. Michelle 2017年1月13日,上午12:00 #

    非常感谢您如此简洁的解释。我是一名老师推荐来上课的。想问一下您是否可以校对/编辑一下;有些句子似乎遗漏了单词,这影响了理解。例如,我无法完全理解这个句子的后半部分:
    “转向逻辑回归可以提供更强的建模潜在关系的能力,但代价是需要对输出进行函数变换,现在也必须理解这些变换以及系数。”
    再次感谢您。

    • Jason Brownlee 2017年1月15日,上午5:16 #

      谢谢 Michelle。已知。另外,我已修正了问题中的句子。

  2. Faisal 2019年2月9日,凌晨2:21 #

    嗨,Jason,

    您是否有关于模糊逻辑 (FL) 的帖子,特别是关于 Mamdani 和 Mendel 的方法,因为 FL 被认为是可解释系统?

  3. Swaabow Tsaone Thapelo 2019年6月9日,晚上10:35 #

    Jason,你总是把工作做得很好。谢谢。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。