面向机器学习的通俗统计学

统计学相关的书籍浩如烟海,你该从何开始?

选择一本统计学入门书籍时,一本可能存在以下两种常见问题之一。

它可能是一本数学教科书,充斥着各种统计方法的推导、特例和证明,却几乎不讲解方法的直观理解或如何使用。又或者,它是一本过时统计软件的使用指南,与你面临的库和问题几乎没有关联。

在这篇文章中,你将发现一本名为《*Statistics in Plain English*》(通俗易懂的统计学)的书,可以帮助你学习统计方法,而无需深入钻研理论或具体的实现细节。

阅读本文后,你将了解:

  • 这本书旨在为从业者提供清晰的统计方法讲解。
  • 本书的内容侧重于基础、高斯分布和参数统计假设检验。
  • 精心策划的阅读列表可用于学习与机器学习从业者相关的特定方法。

用我的新书《机器学习统计学》启动你的项目,其中包括分步教程和所有示例的Python源代码文件。

让我们开始吧。

概述

  1. 《通俗易懂的统计学》
  2. 本书内容
  3. 机器学习阅读列表

《通俗易懂的统计学》

《通俗易懂的统计学》为可能正在修读社会科学学位课程的学生提供统计学入门。

Statistics in Plain English

《通俗易懂的统计学》

这本书由心理学研究员和教授Timothy Urdan撰写。因其写作的可读性而广受欢迎,目前已出到第四版。我拥有第三版,因此任何引述和目录都将引用该版本。

它既不是教科书也不是练习册,而是介于两者之间。Tim谦虚地陈述了本书的目的如下:

本书旨在让统计学更容易理解。

他的意图是让这本书作为一本更严谨的统计学教科书的补充。再说一次,我认为这很谦虚,提到这一点是因为它没有深入探讨方法背后的更多数学严谨性(推导和证明),而是侧重于方法的应用和直观理解(即,作为从业者你所关心的)。

我认为这本书非常适合作为统计学的入门。

每章都介绍一个统计量(有时不止一个),采用三个部分组成的固定模板,如下所示:

  1. 统计量的简要描述。
  2. 统计量方程和细节的详细描述。
  3. 使用该统计量的实操示例。

这本书篇幅不长,不到200页。它还采用了11 x 5.5英寸的大开本,这意味着拿在手里时,有很大的空间来消化其中的思想和示例。

如果你有时间并且是统计学领域的新手,那么值得从头到尾阅读。认真地说。即使你对这个主题很熟悉,它也是一本很棒的读物。

需要机器学习统计学方面的帮助吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

本书内容

我建议研究一下目录。

它有两个作用:

  • 了解入门统计学的广泛主题。
  • 了解哪些主题可能让你感兴趣或与你的项目相关。

以下是该书第三版15章的完整目录:

  • 第1章:社会科学研究原则和术语简介
  • 第2章:集中趋势的度量
  • 第3章:变异性的度量
  • 第4章:正态分布
  • 第5章:标准化和 z 分数
  • 第6章:标准误差
  • 第7章:统计显著性、效应大小和置信区间
  • 第8章:相关性
  • 第9章:t 检验
  • 第10章:单因素方差分析
  • 第11章:多因素方差分析
  • 第12章:重复测量方差分析
  • 第13章:回归
  • 第14章:卡方独立性检验
  • 第15章:因子分析和信度分析:数据降维技术

该书的组织结构清晰,内容分类明确。

它允许你挑选最感兴趣的主题或章节进行深入阅读,而无需阅读前面的章节。

本书的组织方式是,较基础的统计和统计概念在前几章,而较复杂的概念则在后面。但是,不必先读完一章才能理解下一章。相反,书中的每一章都是独立成篇的。

对目录的回顾突出了两点:

  • 本书对高斯分布有很强的侧重,这在概率统计中都非常重要。
  • 本书还侧重于统计假设检验,特别是参数检验,这与对高斯分布的侧重相一致。

这种选择的侧重点可以处理大部分社会科学实验数据相关的统计方法,至少在初级阶段是如此。但对于机器学习从业者来说,确实存在一些不足。例如:

  • 本书对估计方法涉及不多,对置信区间只有少量提及,但对预测区间和容差区间则没有。
  • 本书也没有涵盖重采样方法(如 bootstrap、k 折交叉验证等)。
  • 非参数统计方法的整个领域也被忽略了。

不过,这些主题可以在更具针对性的书籍中查找。

机器学习阅读列表

这是一本很棒的书,如果你是统计学新手,并且正在寻找一种清晰的介绍应用机器学习中真正需要知道的基础知识的方法,我强烈推荐它。

正如我上面提到的,这本书不长,值得从头到尾读完。

话虽如此,并非所有章节对你作为机器学习从业者都相关或直接有用。

下面是为机器学习从业者准备的本书 breakdown 或建议阅读列表。

我认为无论如何,你都需要对基础统计学有所了解。我建议至少阅读前几章以获得基础知识。

  • 第1章:社会科学研究原则和术语简介
  • 第2章:集中趋势的度量
  • 第3章:变异性的度量
  • 第4章:正态分布

为了提升你理解训练数据和数据准备方面的技能,我推荐以下三章:

  • 第5章:标准化和 z 分数
  • 第8章:相关性
  • 第14章:卡方独立性检验

要评估和比较机器学习模型和模型参数,可以使用统计假设检验。要开始学习这方面的内容,我推荐以下两章:

  • 第7章:统计显著性、效应大小和置信区间
  • 第9章:t 检验

其他章节你可能可以跳过。

如果你使用线性回归方法,并且对它如何工作以及为什么它能工作有更深入的理解,那么第13章(线性回归)可能会让你感兴趣。

你同意这个阅读计划吗?
在下面的评论中告诉我。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

总结

在这篇文章中,你发现了《Statistics in Plain English》这本书,它可以帮助你学习统计方法,而无需深入研究理论(证明和推导)或实现细节(大量的代码和专有统计包的命令)。

具体来说,你学到了:

  • 这本书旨在为从业者提供清晰的统计方法讲解。
  • 本书的内容侧重于基础、高斯分布和参数统计假设检验。
  • 精心策划的阅读列表可用于学习与机器学习从业者相关的特定方法。

你拥有这本书吗?或者读过它吗?
你对它有什么看法?在下方分享你的想法。

你是否考虑购买这本书?
为什么?

掌握机器学习统计学!

Statistical Methods for Machine Learning

培养对统计学的实用理解

...通过在 python 中编写代码

在我的新电子书中探索如何实现
机器学习的统计方法

它提供关于以下主题的自学教程
假设检验、相关性、非参数统计、重采样,以及更多...

探索如何将数据转化为知识

跳过学术理论。只看结果。

查看内容

6 条关于《机器学习的统计学入门》的回复

  1. Avi 2018年7月6日上午7:05 #

    我倾向于购买这本书,尽管根据一些亚马逊评论,这本书有很多错误。这些错误是否影响了你的阅读体验?

    • Jason Brownlee 2018年7月7日上午6:07 #

      谢谢。

      我没有遇到问题,但我将其作为参考,并与其他多个来源进行交叉验证。

    • Rohit 2018年7月8日下午4:30 #

      和 Avi 一样,我会在购买前先阅读评论。
      评论不如预期。仍然不确定是否要买。
      🙂

  2. Linus 2019年5月21日晚上10:56 #

    你好,

    我读了这本书,很喜欢它能快速概览宏观知识。我希望能找到类似的线性代数、概率论和机器学习主题的书籍,能够概览全局而无需深入理论。你有什么推荐吗?

    谢谢

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。