统计方法应用于应用机器学习项目的每一步。
这意味着对统计学的关键发现的扎实掌握和对相关统计方法的实践知识很重要。
不幸的是,在许多计算机科学和软件工程学位课程中都没有涵盖统计学。即使有,它也可能以自下而上、理论优先的方式教授,导致不清楚哪些部分与特定项目相关。
在这篇文章中,您将发现我推荐的一些热门入门统计学书籍,如果您想快速入门应用统计学,这些书籍非常有帮助。
我拥有所有这些书的副本,但我并不建议您购买和阅读所有这些书。作为开始,选择一本书,然后认真阅读。
通过我的新书《机器学习统计学》,开始您的项目,书中包含分步教程和所有示例的Python源代码文件。
让我们开始吧。

机器学习统计学书籍
照片由 Luis Rogelio HM 拍摄,保留部分权利。
概述
本节分为 3 个部分;它们是
- 科普
- 统计教科书
- 统计研究方法
需要机器学习统计学方面的帮助吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
科普
关于统计学的科普书籍是指那些通过故事和趣闻将统计学的重要发现(如正态分布和中心极限定理)融入其中的书籍。
不要忽视这类书籍。
我一直在阅读它们,尽管我翻阅过统计教科书。我推荐它们的原因是:
- 它们读起来又快又有趣。
- 它们经常能给枯燥的内容带来新的视角。
- 它们是为普通读者准备的。
它们将以一种您能够将之与您在应用机器学习中的特定需求联系起来的方式,帮助您了解统计学实践知识的重要性。
关于统计学的优秀科普书籍有很多;我推荐的三本是:
《赤裸统计学:摆脱数据恐惧》
作者:Charles Wheelan。
对于那些在统计学101课程中打盹的人来说,这本书是一剂救星。Wheelan 剥离了晦涩的技术细节,而是专注于驱动统计分析的底层直觉。他阐明了诸如推断、相关性和回归分析等关键概念,揭示了有偏见或粗心的人如何操纵或歪曲数据,并向我们展示了聪明而有创造力的研究人员如何利用自然实验的有价值数据来解决棘手的问题。
《醉汉的散步:随机性如何主宰我们的生活》
作者:Leonard Mlodinow。
凭借一位天生的讲故事者的叙事能力和富有想象力的方法,Leonard Mlodinow 生动地证明了我们的生活如何深刻地受到机遇和随机性的影响,以及从葡萄酒评分、公司成功到学校成绩和政治民意调查的一切都比我们相信的要不可靠。
信号与噪声:为什么许多预测会失败——但有些不会
作者:Nate Silver。
Silver 借鉴了他自己开创性的工作,研究了预测的世界,调查了我们如何从海量嘈杂的数据中区分出真正的信号。大多数预测会失败,并且经常给社会带来巨大的代价,因为我们大多数人对概率和不确定性的理解都很差。专家和普通人都将更自信的预测误认为是更准确的预测。但过度自信往往是失败的原因。如果我们对不确定性的认识提高了,我们的预测也会变得更好。这就是“预测悖论”:我们对自己预测能力的谦虚程度越高,我们在规划未来时就能取得越大的成功。
您有最喜欢的统计学科普书籍吗?
在下面的评论中告诉我。
(更“软性”的)统计学教科书
您需要一本扎实的参考书。
一本教科书包含了您需要了解的方法的理论、解释和公式。
不要从头到尾阅读这些书;相反,一旦您知道您需要什么,就深入研究这些书来学习那些方法。
在本节中,我包含了一系列书籍,包括(按顺序)一本正规的统计教科书、一本面向没有数学背景的读者,以及一本面向有编程背景的读者。
选择一本适合您背景的书。
统计学大全:统计推断简明教程
作者:Larry Wasserman。
这本书包括了非参数曲线估计、自助法和分类等现代主题,这些主题通常被留给后续课程。假设读者了解微积分和一些线性代数。不需要事先了解概率和统计。统计学、数据挖掘和机器学习都涉及数据的收集和分析。
简明统计学
作者:Timothy C. Urdan。
这本入门教科书提供了一个廉价、简短的统计学概述,以帮助读者更好地理解统计学的工作原理以及如何正确解释它们。每一章都描述了一种不同的统计技术,从诸如集中趋势和分布描述等基本概念到诸如 t 检验、回归、重复测量方差分析和因子分析等更高级的概念。每一章都以对统计量的简短描述以及何时使用它开始。然后是对统计量如何工作的更深入的解释。最后,每一章都以一个统计量使用的例子结束,以及一个使用统计量的分析结果如何写成出版物的样本。书中还包括了统计术语和符号的词汇表。本书使用作者自己的数据以及来自已发表的研究和大众媒体的例子,是一本直接易懂的统计学指南。
数据科学家实用统计学:50 个核心概念
作者:Peter Bruce 和 Andrew Bruce (作者)
统计方法是数据科学的关键部分,但很少有数据科学家接受过正规的统计学培训。关于基础统计学的课程和书籍很少从数据科学的角度来涵盖这个主题。这本实用的指南解释了如何将各种统计方法应用于数据科学,告诉您如何避免误用它们,并就什么重要、什么不重要给出建议。
许多数据科学资源都包含统计方法,但缺乏更深入的统计学视角。如果您熟悉 R 编程语言,并且对统计学有一些了解,这本快速参考指南将以一种易于访问、可读的格式弥合这一差距。
您最喜欢的统计教科书是哪一本?
在下面的评论中告诉我。
统计研究方法
掌握了基础知识后,您需要知道在不同情况下应该使用哪些统计方法。
许多应用机器学习涉及设计和执行实验,而统计方法对于有效地设计这些实验和解释结果至关重要。
这意味着您需要扎实地掌握研究背景下的统计方法。
本节提供了一些关于此主题的关键书籍。
很难找到关于此主题的优秀书籍,而这些书籍又不过于理论化或侧重于专有的 SPSS 软件平台。第一本书强烈推荐且通用,第二本书使用了免费的 R 平台,而最后一本书是关于此主题的经典教科书。
人工智能的经验方法
作者:Paul R. Cohen。
特别是计算机科学和人工智能,不像其他科学那样有研究方法课程。本书介绍了研究复杂计算机程序的实证方法:帮助发现数据模式的探索性工具、帮助数据更有说服力地说话的实验设计和假设检验工具,以及帮助解释数据的建模工具。尽管这些技术中有许多是统计学的,但本书在更广泛的实证过程的背景下讨论统计学。前三章介绍了实证问题、探索性数据分析和实验设计。统计假设检验的直接审问被推迟到第4章和第5章,它们分别介绍了经典的参数方法和计算密集型(蒙特卡洛)重采样方法。这是少数几本以准确、易于理解的方式介绍这些新的、灵活的重采样技术的书籍之一。
统计研究方法:非统计学家的指南
作者:Roy Sabo 和 Edward Boone。
这本教科书将帮助非统计学专业的硕士生、高级本科研究人员和卫生科学领域的研究人员学习、使用和交流许多常用统计方法的结果。所涵盖的材料及其呈现方式描述了从假设生成到在手稿中撰写结果的整个数据分析过程。各章涵盖但不限于:一个和两个样本比例、多类别数据、一个和两个样本均值、方差分析和回归。在整本书中,作者使用非统计学语言解释统计程序和概念。这种易于理解的方法配有真实世界的例子和用于学术论文方法和结果部分的示例撰写。该文本还允许同时使用 R 编程语言,R 是一个由统计学界创建、维护和更新的开源程序。R 是免费提供且易于下载的。
实验统计学:设计、创新和发现
作者:George E. P. Box, J. Stuart Hunter, and, William G. Hunter。
经过重写和更新,这一新版的《实验统计学》沿用了第一版的标志性方法,通过示例、易于理解的图形和计算机的适当使用来教学。第二版通过催化创新、解决问题和发现,为实验者提供了在研究数据中获得最大知识所需的科学和统计工具,并说明了在调查过程的各个阶段如何最好地利用这些工具。作者的实践方法从需要解决的问题开始,然后考察适当的设计和分析统计方法。
您有最喜欢的统计研究方法书籍吗?
请在下面的评论中告诉我?
总结
要有效地进行应用机器学习,您需要具备统计学基础。
这种基础不一定非得先有,但必须在您的学习旅程中的某个时候发生。
我认为您的统计学学习路径应该从一本书开始,但确实需要大量的实践。这是一个应用领域。我建议您为沿途学习的每一个关键概念都开发代码示例。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
您读过任何关于统计学的优秀书籍吗?
在下面的评论中告诉我。
感谢您的推荐,我以前没听说过 Cohen 的书,它看起来非常有趣。
前段时间我一直在寻找一本“进阶”的统计学教材,我发现了这两本非常有前景的书:
现代数理统计学及其应用:https://amzn.to/2KF3PXO
入门统计学与分析:https://amzn.to/2rpDMvf
很棒的推荐,谢谢!
你秃头吗?
不行。
感谢您的推荐。这里还有另一本,我觉得非常有帮助。它被 Coursera 上的 Duke 大学统计学在线课程推荐。
https://drive.google.com/file/d/0B-DHaDEbiOGkc1RycUtIcUtIelE/view
谢谢!
我旁听了 Coursera 的这个专业课程(免费),我觉得它做得相当好。如果您正在寻找入门课程,我也推荐它。
相关的教科书 OpenStats 也是免费的。
Nate Silver 的“开创性工作”包括他在美国总统大选前后糟糕的预测。只是说一下。
这本书读起来很有趣。忽略政治。
由于民意调查错误是存在的,他的预测也是最准确的。
Silver 受限于均值,而大多数“数据科学家”则倾向于假装自己在处理 Mu(期望值)。
人们不能或不知道如何避免批评政治模型的统计方面,这表明大多数“数据科学家”缺乏准确使用算盘输出的能力,更不用说解析分层建模的有用性了。
你好 Jason?
我想你知道《Think Stats》这本书,里面有很多 Python 代码。
https://www.amazon.com/Think-Stats-Exploratory-Data-Analysis/dp/1491907339/ref=sr_1_1?ie=UTF8&qid=1525863731&sr=8-1&keywords=think+stats
我没读过,你读过吗?你的看法是什么?
对于统计学 + Python = 它很棒。
这本书的 PDF 版本由出版商免费提供。自己判断一下
http://greenteapress.com/thinkstats2/thinkstats2.pdf
感谢分享。
嗨,Jason,
《Think Stats》与您的《机器学习统计方法》相比如何?
有一些重叠,风格不同,我想我的书更偏向教程风格,Think Stats 更偏向小食谱式的。
在“科普”类别中,我认为《茶女品茶》是一本关于统计学历史的有趣读物。
我对这个页面的微积分和线性代数版本很感兴趣——我几乎忘记了这两门课的所有内容,感觉我可能需要重新开始。
我没听说过,谢谢!
这是线性代数
https://machinelearning.org.cn/resources-for-linear-algebra-in-machine-learning/
我希望将来能涵盖微积分。
这是另一本适合初学者的好教材
Dennis Wackerly 的《数理统计学及其应用》第 7 版
https://www.cengage.com/c/mathematical-statistics-with-applications-7e-wackerly/9780495110811
太棒了,谢谢分享!
感谢您的推荐。我一直在寻找统计学书籍的推荐,而您的专家评论正是我所需要的!
很高兴它有帮助。
Jason,你的统计学电子书什么时候出版?
这个月希望能出来。
嘿 Jason,我开始学习 R 了,虽然我使用 Python 来进行数据科学。尽管如此,我认为 R 在统计分析方面更为完善,这是数据科学的重要组成部分。不过,我想问你是否有关于 Python 统计分析的参考资料。这些书中的大多数都使用 R 作为语言,而且由于我刚开始学习 R,我需要一些时间才能深入理解 R 语法。感谢您的帮助 Jason,我读您的文章已经一年多了,它在我的数据科学之旅中帮助了我,尤其是我遇到复杂的数学算法时。您的解释方式简单明了!
谢谢。
是的,我正在写一本关于机器学习统计学的 Python 书。应该在这个月晚些时候出版。
嘿,Jason
感谢您整理了这个列表。各种来源都提到了这个统计学课程是机器学习的先决条件。
它与上述主题有何不同?
https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about
谢谢
抱歉,我不知道那个课程。
你知道哈佛的 stat 110 课程吗?
你对此有什么看法?
抱歉,我没有。