什么是机器学习中的假设？

作者： Jason Brownlee 于 2020年9月4日发布在开始机器学习 46

有监督的机器学习通常被描述为近似一个将输入映射到输出的目标函数的问题。

这个描述被认为是搜索和评估假设空间中的候选假设。

在机器学习中讨论假设对于初学者来说可能令人困惑，尤其是当“假设”在统计学（例如统计假设检验）和更广泛的科学领域（例如科学假设）中具有不同但相关的含义时。

在本文中，您将了解科学、统计学和机器学习中假设之间的区别。

阅读本文后，你将了解：

科学假设是对观测结果的一种初步解释，它是可证伪的。
统计假设是关于数据总体之间关系的解释，其解释具有概率性。
机器学习假设是逼近输入到输出映射的目标函数的候选模型。

让我们开始吧。

A Gentle Introduction to Hypotheses in Machine Learning

机器学习假设的初步介绍
图片来自 Bernd Thaller，保留部分权利。

概述

本教程分为四个部分；它们是

什么是假设？
统计学中的假设
机器学习中的假设
假设回顾

什么是假设？

假设是对某事的解释。

它是一个初步的想法，一个需要评估的经过教育的猜测。

一个好的假设是可检验的；它可以是真的，也可以是假的。

在科学中，假设必须是可证伪的，这意味着存在一个测试，其结果可能意味着假设不成立。假设还必须在测试结果已知之前就已确定。

… 并非所有假设都行。任何假设或假设系统都必须满足一个基本条件，才能被授予科学定律或理论的地位。如果它要构成科学的一部分，假设就必须是可证伪的。

— 第 61-62 页，《科学是什么？》，第三版，1999 年。

一个好的假设符合证据，并且可以用来对新观测或新情况做出预测。

最符合证据并可用于做出预测的假设被称为理论，或理论的一部分。

科学中的假设：初步解释，符合证据，可被证实或证伪。

统计学中什么是假设？

统计学的大部分内容都与观测值之间的关系有关。

统计假设检验技术用于计算一个称为“效应”的临界值。然后可以解释临界值，以确定如果关系不存在，观察到该效应的可能性有多大。

如果可能性非常小，那么它表明该效应可能是真实的。如果可能性很大，那么我们可能观察到了统计上的波动，并且该效应可能不是真实的。

例如，我们可能对评估两个样本均值之间的关系感兴趣，例如样本是否来自同一分布，它们之间是否存在差异。

一种假设是，根据数据样本，总体均值之间没有差异。

这是一种无效应假设，称为零假设，我们可以使用统计假设检验来拒绝此假设，或不拒绝（保留）它。我们不说是“接受”，因为结果是概率性的，即使概率很小，仍然可能出错。

… 我们会形成一个假设，并建立一个我们用来决定是保留还是拒绝我们假设的标准。社会科学研究中最感兴趣的假设是零假设

— 第 64-65 页，《通俗统计学》，第三版，2010 年。

如果拒绝了零假设，那么我们就假设备择假设，即均值之间存在某种差异。

零假设 (H0)：表明无效应。
备择假设 (H1)：表明存在某种效应。

统计假设检验不评论效应的大小，只根据观察到的数据样本，评论总体中效应存在或不存在的可能性。

统计学中的假设：关于观测值之间存在关系的概率性解释。

机器学习中什么是假设？

机器学习，特别是监督学习，可以被描述为使用可用数据来学习最佳映射输入到输出的函数。

从技术上讲，这是一个称为函数逼近的问题，我们正在逼近一个未知的目标函数（我们假设它存在），该函数可以最好地将输入映射到问题域所有可能观测值的输出。

逼近目标函数并执行输入到输出映射的模型示例称为机器学习中的假设。

算法的选择（例如神经网络）和算法的配置（例如网络拓扑和超参数）定义了模型可能表示的假设空间。

机器学习算法的学习涉及在所选的假设空间中导航，以找到最佳或足够好的假设，从而最好地逼近目标函数。

学习是通过可能的假设空间进行搜索，以找到一个即使在训练集之外的新示例也能表现良好的假设。

— 第 695 页，《人工智能：一种现代方法》，第二版，2009 年。

这种机器学习的框架很常见，有助于理解算法的选择、学习和泛化问题，甚至偏差-方差权衡。例如，训练数据集用于学习假设，测试数据集用于评估它。

使用一种常见的表示法，其中小写 h (h) 表示给定的特定假设，大写 H (H) 表示正在搜索的假设空间。

h (假设)：一个特定的假设，例如一个实例或特定的候选模型，它可以将输入映射到输出，并且可以被评估和用于做出预测。
H (假设集)：一个可能的假设空间，用于将输入映射到输出，可以通过搜索来找到，通常受问题框架、模型选择和模型配置选择的约束。

算法和算法配置的选择涉及选择一个假设空间，该空间被认为包含一个能够很好地或最好地逼近目标函数的假设。这极具挑战性，而且通常更有效的方法是抽样检查一系列不同的假设空间。

如果我们选择的假设空间包含真实函数，我们就说学习问题是可实现的。不幸的是，我们不能总是确定给定的学习问题是否可实现，因为我们不知道真实函数。

— 第 697 页，《人工智能：一种现代方法》，第二版，2009 年。

这是一个难题，我们选择限制假设空间的大小和所评估假设的复杂度，以使搜索过程易于处理。

假设空间的表达能力与在该空间中寻找一个好的假设的复杂性之间存在权衡。

— 第 697 页，《人工智能：一种现代方法》，第二版，2009 年。

机器学习中的假设：逼近将输入示例映射到输出的候选模型。

假设回顾

我们可以再次总结这三个定义如下

科学中的假设：初步解释，符合证据，可被证实或证伪。
统计学中的假设：关于观测值之间存在关系的概率性解释。
机器学习中的假设：逼近将输入示例映射到输出的候选模型。

我们可以看到，机器学习中的假设借鉴了科学中对假设更广泛的定义。

就像科学中的假设是涵盖现有证据、可证伪并可用于对未来新情况做出预测的解释一样，机器学习中的假设也具有类似的属性。

机器学习中的假设

涵盖现有证据：训练数据集。
（某种程度上）可证伪：预先设计测试程序，用于估计性能并将其与基线模型进行比较，以确定其是否有效。
可用于新情况：对新数据进行预测。

本文是否解决了您关于机器学习中假设的疑问？
在下面的评论中告诉我。

进一步阅读

如果您想深入了解，本节提供了更多关于该主题的资源。

书籍

《科学是什么？》，第三版，1999 年。
《通俗统计学》，第三版，2010 年。
《人工智能：一种现代方法》，第二版，2009 年。
机器学习, 1997.

文章

讨论

文章

总结

在本文中，您发现了科学、统计学和机器学习中假设之间的区别。

具体来说，你学到了：

科学假设是对观测结果的一种初步解释，它是可证伪的。
统计假设是关于数据总体之间关系的解释，其解释具有概率性。
机器学习假设是逼近输入到输出映射的目标函数的候选模型。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

为什么训练神经网络如此困难

深度学习能力的三种水平

对《机器学习中的假设是什么？》的 46 条回应

Tebogo Mogaleemang 2019 年 3 月 4 日上午 8:57 #

感谢分享，解释得很清楚。

回复
- Jason Brownlee 2019 年 3 月 4 日下午 2:16 #
  
  谢谢，很高兴对您有帮助。
  
  回复
Jac 2019 年 3 月 5 日晚上 9:27 #

非常感谢，帮助很大。

回复
- Jason Brownlee 2019 年 3 月 6 日上午 7:53 #
  
  很高兴听到这个消息。
  
  回复
Igor Matutinovic 2019 年 3 月 7 日晚上 7:30 #

精彩的解释 – 谢谢！

回复
- Jason Brownlee 2019 年 3 月 8 日上午 7:46 #
  
  谢谢 Igor。
  
  回复
  - Ashwin 2020 年 6 月 15 日下午 12:14 #
    
    非常感谢。解释得很清楚…
    
    回复
    - Jason Brownlee 2020 年 6 月 15 日下午 1:42 #
      
      谢谢。
      
      回复
Chris Fleshner 2019 年 3 月 8 日上午 6:20 #

是否可以说，一旦一个候选模型被证明足够好，那么使用该候选模型就会产生概率性的结果？只是想确认一下我没有混淆统计假设和机器学习定义。

回复
- Jason Brownlee 2019 年 3 月 8 日上午 8:01 #
  
  我不确定我是否理解，你能详细说明吗？
  
  候选模型是可靠的，直到模型的/假设的假设发生变化，例如数据分布改变。
  
  回复
Nagdev Amruthnath 2019 年 3 月 8 日上午 6:21 #

非常好的文章，解释了不同类型的假设。现在就点击分享按钮！

回复
- Jason Brownlee 2019 年 3 月 8 日上午 8:01 #
  
  谢谢！
  
  回复
Urlish 2019 年 3 月 8 日上午 6:34 #

谢谢

回复
- Jason Brownlee 2019 年 3 月 8 日上午 8:02 #
  
  很高兴它有帮助。
  
  回复
  - izrahayu Che Hashim 2019 年 3 月 8 日上午 8:52 #
    
    谢谢……帮助很大
    
    回复
- Partha S Nayak 2019 年 4 月 10 日上午 7:41 #
  
  我遇到的最简洁明了的假设解释。只有一个词“效应”概括了统计假设的全部内容，正如 Jason 博士如此巧妙地呈现的那样。
  
  回复
  - Jason Brownlee 2019 年 4 月 10 日下午 1:44 #
    
    谢谢。
    
    回复
Bob 2019 年 3 月 8 日上午 10:01 #

清晰简洁。干得好！

回复
- Jason Brownlee 2019 年 3 月 8 日下午 2:17 #
  
  谢谢 Bob。
  
  回复
Rao 2019 年 3 月 8 日下午 4:23 #

解释得很好

回复
- Jason Brownlee 2019 年 3 月 9 日上午 6:21 #
  
  谢谢。
  
  回复
Renan Macedo 2019 年 3 月 9 日下午 12:09 #

精彩的解释！这对在现实世界中应用结果非常重要，

回复
- Jason Brownlee 2019 年 3 月 10 日上午 8:14 #
  
  谢谢。
  
  回复
Divya mannemoni 2019 年 8 月 15 日凌晨 12:18 #

为什么我们在机器学习中限制假设空间？

回复
- Jason Brownlee 2019 年 8 月 15 日上午 8:11 #
  
  为了加快搜索/拟合速度并实际获得模型。否则搜索空间实际上是无限的。
  
  回复
Hannes 2019 年 11 月 9 日下午 4:17 #

谢谢 Jason！
帮助很大！
您能否进一步解释一下具体假设和一般假设的概念？

回复
- Hannes 2019 年 11 月 9 日下午 4:18 #
  
  *Jason
  抱歉
  
  回复
- Jason Brownlee 2019 年 11 月 10 日上午 8:18 #
  
  好的，请看这里：
  https://en.wikipedia.org/wiki/Hypothesis
  
  回复
Nuhil 2020 年 1 月 24 日上午 8:13 #

嗨，Jason，
感谢这篇文章。您能否在统计假设的范围内详细说明，如果我们想知道“两个数据样本”是否来自相同的“分布/总体”，我们是否应该进行假设检验（例如 P 值），比较

A. 样本 1 与总体/分布 1 – 然后观察可能性
B. 样本 1 与样本 2 – 然后观察可能性
C. 样本 1 与总体/分布 1（总体） AND 样本 2 与总体/分布 1（总体）– 然后观察可能性

回复
- Jason Brownlee 2020 年 1 月 24 日下午 1:32 #
  
  我们总是处理样本，我们从未接触过总体。
  
  也许这些例子会有帮助
  https://machinelearning.org.cn/statistical-hypothesis-tests-in-python-cheat-sheet/
  
  回复
Mahmoud Abbasi 2020 年 4 月 30 日下午 4:17 #

您的网站很棒！感谢您的有用帖子！

回复
- Jason Brownlee 2020 年 5 月 1 日上午 6:30 #
  
  谢谢！
  
  回复
Chuks 2020 年 6 月 15 日下午 4:14 #

您的解释很棒。它让这个问题更加清晰。非常感谢。

回复
- Jason Brownlee 2020 年 6 月 16 日上午 5:34 #
  
  谢谢！
  
  回复
Ramesh Ravula 2020 年 6 月 15 日晚上 7:40 #

从来没有这样想过。感谢您的解释。

回复
- Jason Brownlee 2020 年 6 月 16 日上午 5:37 #
  
  不客气！
  
  回复
Sharan Salian 2020 年 7 月 11 日晚上 11:41 #

一篇精心制作的文章，介绍了所有相关的学科。喜欢如何使用不同书籍的段落来达到深度和简洁的更好平衡。谢谢您，先生。

回复
- Jason Brownlee 2020 年 7 月 12 日上午 5:53 #
  
  谢谢。
  
  回复
Shubham Goel 2020 年 8 月 29 日上午 4:18 #

感谢您如此精彩且富有解释性的文章。

回复
- Jason Brownlee 2020 年 8 月 29 日上午 8:03 #
  
  不客气。
  
  回复
Yusto M. Yustas 2021 年 3 月 23 日晚上 7:53 #

非常感谢您分享这些有价值的信息

回复
- Jason Brownlee 2021 年 3 月 24 日上午 5:50 #
  
  不客气！
  
  回复
JG 2021 年 7 月 3 日下午 5:02 #

解释得很棒 Jason！

关于假设的无限空间搜索，假设证据符合当前数据解释，关于假设真实性的可证伪测试（在新数据上评估），以及最终的假设作为构建理论或模型或思想库以做出新预测的方式！

非常有启发性的抽象思想！

干得好！

科学和机器学习似乎都很好地符合这种情况，但统计假设似乎有所不同！

为什么您将机器学习假设描述限制在监督学习？

谢谢

回复
- Jason Brownlee 2021 年 7 月 4 日上午 5:59 #
  
  谢谢！
  
  我更喜欢监督学习，它可能在“商业”中更有用。
  
  回复
Sarah 2022 年 7 月 20 日上午 3:45 #

哇，我正在读一篇论文，读完您的文章后，我意识到我试图将“科学”假设应用于该论文，而实际上我需要将机器学习假设应用于理解。您确实帮助我理解了机器学习中假设和模型的概念。现在一切都说得通了。谢谢！！

回复
- James Carmichael 2022 年 7 月 20 日上午 9:07 #
  
  感谢您的精彩反馈和支持 Sarah！
  
  回复