要成为一名有效的机器学习实践者,需要具备统计学基础。
本书《All of Statistics》专门为计算机科学本科生提供概率和统计学基础,这些学生可能对数据挖掘和机器学习感兴趣。因此,它经常被推荐给希望扩展统计学理解的机器学习实践者。
在本文中,您将了解《All of Statistics》这本书,它涵盖的主题,以及为机器学习实践者准备的阅读列表。
阅读本文后,你将了解:
- Larry Wasserman 撰写了《All of Statistics》,旨在快速帮助计算机科学专业的学生掌握概率和统计学。
- 本书对统计学领域进行了广泛的介绍,并侧重于所涵盖主题的数学表达。
- 本书涵盖的内容远远超过机器学习实践者所需,但精选的主题阅读对于那些偏爱数学处理方式的人会很有帮助。
用我的新书 机器学习统计学 启动您的项目,其中包括分步教程和所有示例的Python源代码文件。
让我们开始吧。

机器学习中的所有统计知识
照片由 Chris Sorge 拍摄,保留部分权利。
All of Statistics
这本书《All of Statistics: A Concise Course in Statistical Inference》由 Larry Wasserman 撰写,于 2004 年出版。
Wasserman 是卡内基梅隆大学的统计学和数据科学教授。
这本书雄心勃勃。
它旨在快速帮助计算机科学专业的学生掌握概率和统计学。因此,本书涵盖的主题非常广泛,可能比一般的入门教材更广泛。
字面上看,“All of Statistics”这个标题是夸张了。但精神上,这个标题很贴切,因为这本书确实涵盖了比典型的数理统计学入门书更广泛的主题。这本书适合那些想快速学习概率和统计学的人。
— 第 vii 页,All of Statistics: A Concise Course in Statistical Inference, 2004。
这本书不适合普通实践者;它面向计算机科学专业的本科生。它确实假定您在微积分和线性代数方面有一些先验知识。如果您不喜欢方程式或数学符号,这本书就不适合您。
有趣的是,Wasserman 撰写这本书是为了回应在计算机科学领域中,数据挖掘和机器学习的兴起,这些领域在传统统计学之外发展。他在序言中强调了掌握统计学基础对于有效进行机器学习的重要性。
不懂基本统计学就使用神经网络、Boosting 和支持向量机等高级工具,就像在知道如何使用创可贴之前就进行脑部手术一样。
— 第 vii-viii 页,All of Statistics: A Concise Course in Statistical Inference, 2004。
内容呈现方式非常清晰简洁。它采取系统化的方法,对方法进行简要描述,提供描述其实现的方程式,并通过工作示例来激发读者使用样本代码(R 语言)来应用该方法。
实际上,内容如此紧凑,常常读起来像一系列百科全书的条目。如果您想知道如何实现某种方法,这很棒,但如果您是方法的新手并寻求直观理解,则非常具有挑战性。
需要机器学习统计学方面的帮助吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
内容回顾
如前一节所述,本书涵盖的主题选择非常广泛。
一方面,这很好,因为读者可以早期接触到高级主题。这种激进的范围的缺点是,主题被简要提及,很少有指导。您需要反复阅读章节才能理解。
让我们来看看本书涵盖的主题。
这有助于您了解该领域提供的范围以及作为机器学习实践者可能感兴趣的主题的背景。
本书分为三个部分;它们是:
- I 概率
- II 统计推断
- III 统计模型与方法
本书的第一部分侧重于概率论和描述不确定性的形式化语言。第二部分侧重于统计推断。第三部分侧重于第二部分中提出的具体方法和问题。
这本书确实有参考或百科全书的感觉。因此,有很多章节,但每章都相对独立。本书分为 24 章;它们是:
- 第一章:概率
- 第二章:随机变量
- 第三章:期望
- 第四章:不等式
- 第五章:随机变量的收敛
- 第六章:模型、统计推断与学习
- 第七章:估计累积分布函数和统计函数
- 第八章:Bootstrap
- 第九章:参数推断
- 第十章:假设检验与 P 值
- 第十一章:贝叶斯推断
- 第十二章:统计决策理论
- 第十三章:线性回归与逻辑回归
- 第十四章:多元模型
- 第十五章:独立性推断
- 第十六章:因果推断
- 第十七章:有向图与条件独立性
- 第十八章:无向图
- 第十九章:对数线性模型
- 第二十章:非参数曲线估计
- 第二十一章:使用正交函数的平滑
- 第二十二章:分类
- 第二十三章:概率再探:随机过程
第二十四章:模拟方法
本书的序言提供了一个有用的术语表,将统计学术语映射到计算机科学术语。这个“统计学/数据挖掘词典”将在下面转载。

统计学/数据挖掘词典
摘自“All of Statistics”。
本书中工作示例使用的所有 R 代码和数据集都可以在 Wasserman 的主页上找到。这非常有帮助,因为您可以专注于尝试示例,而不必输入代码并希望语法正确。
机器学习阅读清单
我不会向从未接触过统计学的开发人员推荐这本书。它太有挑战性了。
我会向处于数学学习模式的计算机科学专业的学生推荐这本书。我也会推荐给之前有统计学背景或扎实数学基础的机器学习实践者。
如果您熟悉数学符号并且知道您在寻找什么,这本书是一个极好的参考。您可以翻阅到相关主题或方法,获得清晰的介绍。
问题是,对于机器学习实践者来说,您确实需要了解许多这些主题,只是不需要达到书中呈现的详细程度。也许稍微浅显一些,达到直观理解的程度。如果您准备好了,阅读(或浏览)以下章节将有助于您建立坚实的统计学概率基础
- 第一章:概率
- 第二章:随机变量
- 第三章:期望
- 第五章:随机变量的收敛
同样,这些都是重要的话题,但您只需要概念层面的理解。
为了涵盖您可能用于解释数据和比较模型性能的统计假设检验,建议阅读以下章节
- 第六章:模型、统计推断与学习
- 第九章:参数推断
- 第十章:假设检验与 P 值
我还会推荐 Bootstrap 章节。这是一个非常好的方法,但重点在于更好地理解 Bagging 和随机森林,或者作为估计模型性能置信区间的一种程序。
- 第八章:Bootstrap
最后,本书以统计学方法来介绍机器学习算法。如果您倾向于更深入地了解回归和分类算法的数学处理方式,我推荐这些章节。
- 第十二章:统计决策理论
- 第十三章:线性回归与逻辑回归
- 第二十二章:分类
我可以阅读统计学的数学表述,但我更喜欢直观理解和实际代码。我不太可能从书架上拿起这本书,而是倾向于选择更温和的处理方式,例如“Statistics in Plain English”或侧重于应用的“Empirical Methods for Artificial Intelligence”。
您同意这个阅读清单吗?
在下面的评论中告诉我。
进一步阅读
如果您想深入了解,本节提供了更多关于该主题的资源。
总结
在本文中,您了解了《All of Statistics》这本书,它提供了对统计学的广泛而简洁的介绍。
具体来说,你学到了:
- Larry Wasserman 撰写了《All of Statistics》,旨在快速帮助计算机科学专业的学生掌握概率和统计学。
- 本书对统计学领域进行了广泛的介绍,并侧重于所涵盖主题的数学表达。
- 本书涵盖的内容远远超过机器学习实践者所需,但精选的主题阅读对于那些偏爱数学处理方式的人会很有帮助。
您读过这本书吗?
您对它有什么看法?请在下面的评论中告诉我。
您是否考虑购买这本书?
请在评论中告诉我。
嘿!很棒的文章!
这篇文章信息量很大,讨论的主题也很好,请继续分享新东西。
谢谢。
嗨 Jason
您的文章非常有帮助。您能否发布一篇关于准实验的文章?
感谢您的建议。
Jason,干得漂亮,
使用统计学和概率是数据应用、机器学习和人工智能的最终核心。这符合这类铺垫要求。
谢谢。
Jason,评价很棒。
作为一个后来才进入这个领域的人(话说:作为一名应用包开发者),我觉得这本书很清新、有趣、严谨,而且最重要的是,容易理解。一切都以最精炼的形式呈现。没有废话。
它确实做到了它承诺的,以一种吸引读者的方式介绍了许多不同的概念,而不会让他们望而却步。
我也非常喜欢阅读 Casella 和 Berger 的书,但那本书需要更长期的投入。
关于直观理解的观点也说得很好,也就是说,您可以拿起 ESL 或 Murphy 的书来了解方法背后的原因。但不知何故,我第一次读 ESL 时就无法与之产生共鸣(现在已经改变了),因为在没有好好玩过数学对象(如期望)的情况下看到它们,感觉很奇怪。
感谢分享。
同意。在阅读 ESL、Murphy 或大多数机器学习教材之前,需要具备统计学、概率论和线性代数的基础!
嘿,我想咨询一下,如果我购买了您所有的电子书,如果不满意,是否可以获得全额退款(337 美元),如何联系您?我好像没看到您的邮箱。
是的。您可以使用“联系”页面。
https://machinelearning.org.cn/contact/
我是一名数据科学硕士研究生(本科学习精算科学)。我目前正在阅读这本书,刚刚发现了这篇文章。我想说,这本书对于有统计学基础的人来说是非常棒的。它能让你更深入地回顾一些基础主题。尽管它涵盖的主题大多是我在入门统计学课程中学过的,但我从这本书中学到了很多新的见解。此外,它的补充练习绝对是一大亮点。它们非常激发人思考!
附注:为了记录我学习这本书的过程,我在 Github 上创建了一个仓库。可以看看:https://github.com/riven314/All_of_Statistics_Exercises
干得好!