统计假设检验可以用来指示两个样本之间的差异是否由随机机会引起,但无法评论差异的大小。
一组被称为“新统计学”的方法正越来越多地被用来替代或补充p值,以量化效应的大小和估计值的不确定性。这组统计方法被称为“估算统计学”。
在本教程中,您将了解估算统计学的简明入门,作为统计假设检验的替代或补充。
完成本教程后,您将了解:
- 效应量方法涉及量化样本间的关联或差异。
- 区间估计方法涉及量化点估计周围的不确定性。
- 元分析(Meta-analyses)涉及量化多个类似独立研究中效应的大小。
通过我的新书《机器学习统计学》来启动您的项目,书中包含所有示例的分步教程和 Python 源代码文件。
让我们开始吧。

机器学习中的估算统计学简明入门
照片由 Nicolás Boullosa 拍摄,保留部分权利。
教程概述
本教程分为5个部分,它们是:
- 假设检验的问题
- 估算统计学
- 效应量
- 区间估计
- 元分析
需要机器学习统计学方面的帮助吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
假设检验的问题
统计假设检验和p值的计算是呈现和解释结果的一种流行方式。
像学生t检验这样的检验可以用来描述两个样本是否具有相同的分布。它们可以帮助解释两个样本均值之间的差异是真实的还是由随机机会引起的。
尽管它们被广泛使用,但它们存在一些问题。例如:
- 计算出的p值容易被误用和误解。
- 样本之间总会存在一些显著差异,即使差异非常微小。
有趣的是,在过去几十年里,学术界出现了反对在研究报告中使用p值的趋势。例如,在1990年代,《流行病学》杂志禁止使用p值。许多医学和心理学的相关领域也纷纷效仿。
尽管p值可能仍在使用,但现在更倾向于使用估算统计学来呈现结果。
估算统计学
估算统计学指的是试图量化一项发现的方法。
这可能包括量化效应的大小或特定结果的不确定性。
……“估算统计学”,这个术语描述了那些专注于估计效应量(点估计)及其置信区间(精确度估计)的方法。
— 估算统计学应取代显著性检验, 2016.
估算统计学是描述三类主要方法的术语。这三类主要方法包括:
- 效应量。用于量化给定处理或干预措施下效应大小的方法。
- 区间估计。用于量化一个值的不确定性的方法。
- 元分析。用于量化多个类似研究中发现的方法。
我们将在接下来的部分更详细地探讨这些方法。
尽管它们并非新技术,但鉴于其在研究文献中相对于统计假设检验的使用日益增多,它们被称为“新统计学”。
新统计学指的是估算、元分析和其他有助于研究人员将重点从[零假设统计检验]转移开来的技术。这些技术并非新生事物,在某些学科中已常规使用,但对于那些依赖[零假设统计检验]的学科来说,使用它们将是新颖且有益的。
— 《理解新统计学:效应量、置信区间和元分析》, 2012.
从统计假设方法转向估算系统的主要原因是,其结果在领域或研究问题的背景下更容易分析和解释。
量化的效应大小和不确定性使得提出的主张更易于理解和使用。结果更有意义。
了解和思考效应的大小和精度对定量科学比思考在假设完全没有效应的情况下观察到至少那么极端的数据的概率更有用。
— 估算统计学应取代显著性检验, 2016.
统计假设检验讨论的是样本是否来自同一分布,而估算统计学可以描述差异的大小和置信度。这使您能够评论一种方法与另一种方法的差异有多大。
估算思维关注的是效应有多大;了解这一点通常比知道效应是否为零更有价值,后者是二分思维的焦点。估算思维促使我们计划实验来回答“多少……?”或“到什么程度……?”这类问题,而不仅仅是二分的[零假设统计检验]问题:“是否存在效应?”
— 《理解新统计学:效应量、置信区间和元分析》, 2012.
效应量
效应量描述了处理或两个样本之间差异的大小。
假设检验可以评论样本间的差异是偶然结果还是真实的,而效应量则用一个数字来表示样本差异的程度。
衡量效应的大小是应用机器学习乃至整个研究领域的重要组成部分。
有时有人问我,研究人员是做什么的?简短的回答是,我们估计效应的大小。无论我们选择研究何种现象,我们职业生涯基本上都在思考新的、更好的方法来估计效应的大小。
— 第3页,《效应量基本指南:统计功效、元分析与研究结果解读》, 2010.
量化效应大小主要有两类技术;它们是:
- 关联。两个样本共同变化的程度。
- 差异。两个样本的不同程度。
例如,关联效应量包括相关性的计算,如皮尔逊相关系数和决定系数r^2。它们可以量化两个样本中观测值共同变化的线性或单调方式。
差异效应量可能包括像科恩d统计量这样的方法,它提供了一个标准化的度量来衡量两个总体的均值有何不同。它们旨在量化两个样本中观测值之间差异的大小。
效应可以是组间比较(例如,处理组和未处理组)中揭示的处理结果,也可以描述两个相关变量(例如,治疗剂量和健康状况)之间的关联程度。
— 第4页,《效应量基本指南:统计功效、元分析与研究结果解读》, 2010.
区间估计
区间估计指的是用于量化观测值不确定性的统计方法。
区间将点估计转化为一个范围,该范围提供了关于估计的更多信息,例如其精度,使其更易于比较和解释。
点估计是那些点,而区间表示那些点估计的不确定性。
— 第9页, 《理解新统计学:效应量、置信区间和元分析》, 2012.
通常计算的区间主要有三种类型。它们是:
- 容差区间:在特定置信水平下,一个分布中一定比例的界限或覆盖范围。
- 置信区间:总体参数估计的界限。
- 预测区间:单个观测值的界限。
容差区间可用于设定对总体中观测值的预期或帮助识别异常值。置信区间可用于解释数据样本均值的范围,随着样本量的增加,该范围会变得更加精确。预测区间可用于为模型的预测或预报提供一个范围。
例如,在呈现模型估计技能的均值时,可以使用置信区间来提供对该估计精度的界限。如果正在比较模型,这也可以与p值结合使用。
因此,置信区间为总体值提供了一个可能性范围,而不是仅仅基于统计显著性的任意二分法。它以P值的精确性为代价,传达了更有用的信息。然而,实际的P值除了置信区间外也很有帮助,最好两者都应呈现。但如果必须排除一个,那么应排除P值。
— 置信区间而非P值:估算而非假设检验, 1986.
元分析
元分析指的是利用多个相似研究的加权来量化一个更广泛的跨研究效应。
当许多小型且相似的研究已经进行,但结果嘈杂且相互矛盾时,元研究就非常有用。它不是直接接受研究结论,而是使用统计方法将多个发现结合起来,形成比任何单一研究都更强的发现。
……更广为人知的是元分析,它完全忽略了他人得出的结论,而是关注已观察到的效应。其目的是将这些独立的观测结果合并成一个平均效应量,并就真实世界效应的方向和大小得出总体结论。
— 第90页,《效应量基本指南:统计功效、元分析与研究结果解读》, 2010.
虽然在应用机器学习中不常用,但注意到元分析是有用的,因为它们构成了这一系列新统计方法的一部分。
扩展
本节列出了一些您可能希望探索的扩展本教程的想法。
- 描述估算统计学在机器学习项目中可以使用的三个例子。
- 找出并总结三种对使用统计假设检验的批评。
- 搜索并找出三篇使用区间估计的研究论文。
如果您探索了这些扩展中的任何一个,我很想知道。
进一步阅读
如果您想深入了解,本节提供了更多关于该主题的资源。
书籍
- 理解新统计学:效应量、置信区间和元分析, 2012.
- 新统计学导论:估算、开放科学及其他, 2016.
- 效应量基本指南:统计功效、元分析与研究结果解读, 2010.
论文
- 估算统计学应取代显著性检验, 2016.
- 置信区间而非P值:估算而非假设检验, 1986.
文章
总结
在本教程中,您了解了估算统计学的简明入门,作为统计假设检验的替代或补充。
具体来说,你学到了:
- 效应量方法涉及量化样本间的关联或差异。
- 区间估计方法涉及量化点估计周围的不确定性。
- 元分析(Meta-analyses)涉及量化多个类似独立研究中效应的大小。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
这是一篇关于假设检验的好教程。谢谢!
谢谢。我很高兴它有帮助。
这是对该主题的一个很好的总结,但几乎没有涉及机器学习的背景。
我来这里的主要原因是为了理解在报告新算法或模型的机器学习论文中,如何最好地使用效应量和置信区间。这些通常作为实验来报告,但通常没有明确提及假设,论文通常会讨论与现有技术相比的一些改进,并用一些统计数据来支持。
我希望你能更新这篇文章,讨论我们应该如何考虑这些方法用于分类、回归和迁移学习。例如,在分类中,SoftMax通常会为它知道分类的每个类别给出不同的预测概率。我们如何计算不同样本的预测区间,并以更有意义的方式报告它们?
这只是对该主题的介绍。
你可以在这里看到一个为机器学习计算置信区间的例子
https://machinelearning.org.cn/confidence-intervals-for-machine-learning/
还有这里
https://machinelearning.org.cn/calculate-bootstrap-confidence-intervals-machine-learning-results-python/
还有这里
https://machinelearning.org.cn/report-classifier-performance-confidence-intervals/
更多关于效应量的内容在这里
https://machinelearning.org.cn/effect-size-measures-in-python/
预测概率本身就包含了不确定性,你可以叠加一个分布函数,比如高斯分布。