机器学习中的模型预测准确性与解释

作者： Jason Brownlee 于 2020年8月15日发布在机器学习流程 6

在他们的著作《应用预测建模》中，Kuhn 和 Johnson 早期就评论了模型预测准确性与模型解释性之间的权衡。

对于给定的问题，明确优先考虑准确性还是可解释性至关重要，这样才能明确地而不是含蓄地进行这种权衡。

在本篇文章中，您将发现并思考这一重要的权衡。

模型准确性与可解释性
照片由 Donald Hobern 拍摄，保留部分权利

准确性与可解释性

模型性能通过其在未见数据上预测事件发生的能力来评估。模型越准确，价值就越高。

模型的可解释性提供了对输入和输出之间关系的洞察。一个可解释的模型可以回答为什么自变量会预测因变量的问题。

问题在于，随着模型准确性的提高，模型复杂度也随之增加，而可解释性却以牺牲为代价。

更高的准确性模型可以为公司带来更多机会、好处、时间和金钱。因此，预测准确性得到了优化。

准确性的优化导致模型复杂度进一步增加，表现为额外的模型参数（以及调整这些参数所需的资源）。

“不幸的是，最具预测能力的模型通常是最难解释的。”

具有更少参数的模型更容易解释。这是显而易见的。线性回归模型为每个输入特征都有一个系数和一个截距项。例如，您可以查看每个项，了解它们对输出的贡献。转向逻辑回归提供了更强的建模潜在关系的能力，但代价是需要对输出进行函数变换，现在也必须理解这些变换以及系数。

决策树（大小适中）可能是可以理解的，而装袋决策树需要不同的视角来解释为什么会预测某个事件的发生。更进一步，将多个模型优化组合成一个预测，可能超出了有意义或及时的解释范围。

在他们的书中，Kuhn 和 Johnson 关注的是以牺牲可解释性为代价的模型准确性。

他们评论说：

“只要复杂模型得到适当验证，使用为解释性而非预测性能而构建的模型可能是不恰当的。”

可解释性是模型准确性的次要因素，他们以垃圾邮件和非垃圾邮件的分类以及房屋评估为例，说明了这种情况。医疗案例被提及了两次，在这两种情况下都被用来捍卫绝对的准确性和可解释性，只要模型经过适当验证。

我敢肯定，“但我验证了我的模型”在模型做出导致生命损失的预测时，在质询中不会有任何辩护作用。然而，毫无疑问，这是一个需要仔细考虑的重要问题。

无论何时对问题进行建模，您都必须在模型准确性和模型可解释性之间做出权衡。

您可以在选择建模问题的方法时利用这种权衡的知识，并在呈现结果时明确您的目标。