在他们的著作《应用预测建模》中,Kuhn 和 Johnson 早期就评论了模型预测准确性与模型解释性之间的权衡。
对于给定的问题,明确优先考虑准确性还是可解释性至关重要,这样才能明确地而不是含蓄地进行这种权衡。
在本篇文章中,您将发现并思考这一重要的权衡。
准确性与可解释性
模型性能通过其在未见数据上预测事件发生的能力来评估。模型越准确,价值就越高。
模型的可解释性提供了对输入和输出之间关系的洞察。一个可解释的模型可以回答为什么自变量会预测因变量的问题。
问题在于,随着模型准确性的提高,模型复杂度也随之增加,而可解释性却以牺牲为代价。
模型复杂度
更高的准确性模型可以为公司带来更多机会、好处、时间和金钱。因此,预测准确性得到了优化。
准确性的优化导致模型复杂度进一步增加,表现为额外的模型参数(以及调整这些参数所需的资源)。
“不幸的是,最具预测能力的模型通常是最难解释的。”
具有更少参数的模型更容易解释。这是显而易见的。线性回归模型为每个输入特征都有一个系数和一个截距项。例如,您可以查看每个项,了解它们对输出的贡献。转向逻辑回归提供了更强的建模潜在关系的能力,但代价是需要对输出进行函数变换,现在也必须理解这些变换以及系数。
决策树(大小适中)可能是可以理解的,而装袋决策树需要不同的视角来解释为什么会预测某个事件的发生。更进一步,将多个模型优化组合成一个预测,可能超出了有意义或及时的解释范围。
准确性胜过可解释性
在他们的书中,Kuhn 和 Johnson 关注的是以牺牲可解释性为代价的模型准确性。
他们评论说:
“只要复杂模型得到适当验证,使用为解释性而非预测性能而构建的模型可能是不恰当的。”
可解释性是模型准确性的次要因素,他们以垃圾邮件和非垃圾邮件的分类以及房屋评估为例,说明了这种情况。医疗案例被提及了两次,在这两种情况下都被用来捍卫绝对的准确性和可解释性,只要模型经过适当验证。
我敢肯定,“但我验证了我的模型”在模型做出导致生命损失的预测时,在质询中不会有任何辩护作用。然而,毫无疑问,这是一个需要仔细考虑的重要问题。
总结
无论何时对问题进行建模,您都必须在模型准确性和模型可解释性之间做出权衡。
您可以在选择建模问题的方法时利用这种权衡的知识,并在呈现结果时明确您的目标。
非常感谢您如此简洁的解释。我是一名老师推荐来上课的。想问一下您是否可以校对/编辑一下;有些句子似乎遗漏了单词,这影响了理解。例如,我无法完全理解这个句子的后半部分:
“转向逻辑回归可以提供更强的建模潜在关系的能力,但代价是需要对输出进行函数变换,现在也必须理解这些变换以及系数。”
再次感谢您。
谢谢 Michelle。已知。另外,我已修正了问题中的句子。
嗨,Jason,
您是否有关于模糊逻辑 (FL) 的帖子,特别是关于 Mamdani 和 Mendel 的方法,因为 FL 被认为是可解释系统?
抱歉,我没有关于模糊逻辑的资料。
Jason,你总是把工作做得很好。谢谢。
谢谢。