应用统计学与机器学习之间的密切关系

机器学习从业者拥有一套算法传统,并务实地专注于结果和模型技能,而不是其他诸如模型可解释性等问题。

统计学家在应用统计学和统计学习的名称下处理着大致相同类型的建模问题。他们出身数学背景,更注重模型的行为和预测的可解释性。

这两种解决相同问题的方法之间有着非常密切的关系,这意味着两个领域都可以从彼此身上学到很多东西。经典“两种文化”论文中指出了统计学家需要考虑算法方法。机器学习从业者也必须注意,保持开放的心态,并学习应用统计学中的术语和相关方法。

在这篇文章中,您将发现机器学习和统计学习是解决相同问题的两种密切相关但不同的视角。

阅读本文后,你将了解:

  • 机器学习”和“预测建模”是从计算机科学的角度对数据建模,侧重于算法方法和模型技能。
  • 统计学”和“统计学习”是从数学的角度对数据建模,侧重于数据模型和拟合优度。
  • 机器学习从业者必须保持开放的心态,利用应用统计学和统计学习这些密切相关领域的方法并理解其术语。

通过我的新书《机器学习统计学》来启动您的项目,包括所有示例的分步教程Python源代码文件。

让我们开始吧。

The Close Relationship Between Applied Statistics and Machine Learning

应用统计学与机器学习之间的密切关系
图片由James Loesch提供,保留部分权利。

机器学习

机器学习是人工智能的一个子领域,与更广泛的计算机科学领域相关。

在开发机器学习模型以进行预测时,人们非常注重算法、代码和结果。

机器学习比开发模型进行预测要广泛得多,这可以从Tom Mitchell在1997年经典教科书中的定义中看出。

机器学习领域关注的问题是如何构建能够通过经验自动改进的计算机程序。

— 第十五页,《机器学习》,1997年。

这里我们可以看到,从研究的角度来看,机器学习实际上是研究计算机程序如何学习。碰巧的是,其中一些学习程序对于预测建模问题非常有用,有些实际上是从其他领域(如统计学)借鉴而来的。

线性回归就是一个完美的例子。它是一种来自(当时:新兴)统计学领域的一个多世纪前的方法,用于将直线或平面拟合到实值数据。从机器学习的角度来看,我们将其视为一个系统,用于响应领域中的示例来学习权重(系数)。

人工智能和机器学习领域已经开发了许多方法,其中一些是由统计学家开发的,它们对预测建模任务非常有用。一个很好的例子是分类和回归树,它与统计学中的经典方法没有任何相似之处。

需要机器学习统计学方面的帮助吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

预测建模

对从业者而言,机器学习的有用部分可以称之为预测建模

这明确地忽略了统计学和机器学习之间的区别。它也抛弃了统计学(理解数据)和机器学习(理解软件中的学习)的更广泛目标,而只关注(正如其名称所示)开发能够进行预测的模型。

“预测建模”这个术语可能会引发诸如机器学习、模式识别和数据挖掘等联想。的确,这些联想是恰当的,这些术语所暗示的方法是预测建模过程的组成部分。但是预测建模包含的不仅仅是用于发现数据中模式的工具和技术。预测建模的实践定义了以一种我们可以理解和量化模型对未来、尚未见到的数据的预测准确性的方式开发模型的过程。

— 第 vii 页,《应用预测建模》,2013年

预测建模着重于开发模型,其目标是在某种模型技能度量方面获得最佳结果。这种务实的方法通常意味着以牺牲几乎所有其他东西为代价,追求最大技能或最小误差形式的结果。

我们称这个过程为机器学习还是预测建模并不重要。从某种意义上说,这是一种营销和群体认同。对从业者而言,获得结果和提供价值更重要。

统计学习

处理数据集和开发预测模型也是统计学中的一项任务。

统计学家传统上可能将此活动称为应用统计学。

统计学是数学的一个子领域,这种传承使其专注于定义明确、精心选择的方法。需要不仅理解为什么选择特定模型,还要理解特定预测是如何以及为什么做出的。

从这个角度来看,模型技能通常很重要,但不如模型的可解释性重要。

然而,现代统计学家已经将“统计学习”这一新视角作为应用统计学的一个子领域提出。它可能是统计学中与“预测建模”相对应的术语,其中模型技能很重要,但可能更强调学习模型的仔细选择和引入。

统计学习是指一套用于建模和理解复杂数据集的工具。它是统计学中最近发展起来的一个领域,并与计算机科学,特别是机器学习中的并行发展相结合。

— 第 vii 页,《R语言应用统计学习导论》,2013年。

我们可以看到统计学中的各个领域和子领域之间存在思想的渗透。机器学习从业者必须了解解决问题时机器学习和基于统计学的方法。鉴于这两个领域使用不同的术语,这一点尤为重要。

在斯坦福大学的统计学课程中,Rob Tibshirani是一位在机器学习领域也有一席之地的统计学家,他提供了一个词汇表,将统计学中的术语映射到机器学习中的术语,如下所示。

Glossary Mapping Terms in Statistics to Terms in Machine Learning

统计学术语到机器学习术语的词汇映射

这突出了机器学习从业者更深层次的需求,即专注于预测建模,并对方法、思想和术语保持开放,无论其来源领域如何。这可能适用于生物信息学和计量经济学等现代领域,但更适用于与统计学紧密相关且更为古老的领域。

两种文化

最近,或许现在仍然如此,应用统计学家对机器学习领域和“不惜一切代价追求结果”的预测建模实践持轻视态度。

这两个领域都提供了巨大的价值,但可能是在相同的一般预测建模问题中,有着微妙的不同侧重点。

从机器学习的计算机科学角度,例如上面提到的决策树和人工神经网络(最近重新标记为深度学习),已经对建模做出了真实而有价值的贡献,仅举两个众所周知的例子。

正如机器学习从业者必须关注应用统计学和统计学习一样,统计学家也必须关注机器学习。

这一呼吁在如今(或许已是著名)的2001年论文《统计建模:两种文化》中由Leo Breiman明确提出。

在这篇文章中,他将统计学家的“数据建模文化”与包括机器学习在内的所有其他领域的“算法建模文化”进行了对比。他强调这些文化是思考将输入映射到输出这一相同问题的方式,其中统计学方法侧重于拟合优度检验,而算法方法侧重于预测准确性。

他认为,统计学领域将因忽视算法方法而遭受相关性丧失和方法脆弱性的双重打击。他将经典方法称为“数据模型”,这是一个微妙但重要的焦点转变,从业者选择并关注模型(例如逻辑回归)的行为,而不是可能生成它的数据和过程。

这可能被(或许不公平地)描述为专注于让数据拟合模型,而不是选择或调整模型以拟合数据。

统计学界一直致力于几乎排他地使用数据模型。这种承诺导致了不相关的理论、可疑的结论,并使统计学家无法解决大量有趣的当前问题。……如果我们作为一个领域的目标是利用数据解决问题,那么我们需要摆脱对数据模型的排他性依赖,并采用更多样化的工具集。

这是一篇重要的论文,15年多以后仍然 具有相关性,值得一读。

统计学习”等统计学子领域的出现表明正在取得进展。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

总结

在这篇文章中,您了解到机器学习和统计学习是解决相同问题的两个密切相关但不同的视角。

具体来说,你学到了:

  • 机器学习”和“预测建模”是从计算机科学的角度对数据建模,侧重于算法方法和模型技能。
  • 统计学”和“统计学习”是从数学的角度对数据建模,侧重于数据模型和拟合优度。
  • 机器学习从业者必须保持开放的心态,利用应用统计学和统计学习这些密切相关领域的方法并理解其术语。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

掌握机器学习统计学!

Statistical Methods for Machine Learning

培养对统计学的实用理解

...通过在 python 中编写代码

在我的新电子书中探索如何实现
机器学习的统计方法

它提供关于以下主题的自学教程
假设检验、相关性、非参数统计、重采样,以及更多...

探索如何将数据转化为知识

跳过学术理论。只看结果。

查看内容

应用统计学与机器学习的密切关系的8条评论

  1. Ken 2018年6月29日 上午10:52 #

    这让我想起我还是工程系本科生的时候(很久以前了)。当时也有类似的文化鸿沟。数学家们认为工程师们“粗鲁”,因为他们只是拿来公式就用,仅仅因为它们有效,却不真正知道为什么。而工程师们则认为数学家们不切实际,为了理论而理论!

    • Anthony The Koala 2018年6月29日 下午3:17 #

      亲爱的Ken和Jason博士,
      这让我想起了我的第一年数学讲师,他对学生们说,用于CT扫描的微积分是在1930年代开发的。在1930年代,处理图像的技术根本不存在,更不用说电脑了。因此,微积分的工程应用是不可能的。很可能纯数学可能领先于工程学,纯数学家们必须等待他们的理论变为现实。

      此致
      悉尼的Anthony

      • Jason Brownlee 2018年6月29日 下午3:29 #

        可能是这样,而且肯定有其存在的空间。

        但如今我们需要结果,必须专注于有效的方法。

    • Jason Brownlee 2018年6月29日 下午3:27 #

      是的。

  2. Balach R 2018年7月4日 下午9:58 #

    深度学习,被认为在不久的将来会取代大部分机器学习,很少使用统计学。

    • Jason Brownlee 2018年7月5日 上午7:42 #

      我完全不同意。

      深度学习并非取代所有经典或机器学习方法,它只是一种额外的方法。

      没有统计学,无论是深度学习还是其他方法,您都无法选择/理解训练数据或评估/呈现模型性能。

      也许可以浏览这篇文章以获取更多理由
      https://machinelearning.org.cn/what-is-statistics/

  3. Nana Asideu 2020年10月25日 上午12:00 #

    你为什么不把你的网站商业化?我怎样才能支持你?

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。