统计学是一系列工具的集合,您可以使用它们来解答关于数据的重要问题。
您可以使用描述性统计方法将原始观测数据转化为您可以理解和分享的信息。您可以使用推断性统计方法从少量数据样本中对整个领域进行推理。
在这篇文章中,您将清楚地发现为什么统计学在总体上以及对机器学习都非常重要,以及通常有哪些类型的方法可用。
阅读本文后,你将了解:
- 统计学通常被认为是应用机器学习领域的先决条件。
- 我们需要统计学来帮助将观测数据转化为信息,并回答关于观测样本的问题。
- 统计学是在数百年间发展起来的一系列工具集合,用于在给定观测样本的情况下总结数据和量化某个领域的属性。
用我的新书《机器学习统计学》来启动您的项目,其中包括分步教程和所有示例的Python源代码文件。
让我们开始吧。

统计学简明入门
照片由 Mike Sutherland 拍摄,保留部分权利。
统计学是必需的先决条件
机器学习和统计学是两个紧密相关的研究领域。它们的关系如此之近,以至于统计学家们将机器学习称为“应用统计学”或“统计学习”,而不是这个以计算机科学为中心的名称。
向初学者介绍机器学习时,几乎普遍假设读者具有一定的统计学背景。我们可以通过一些精选的例子来具体说明这一点。
请看这句引自一本热门的应用机器学习书籍《应用预测建模》开头的引文:
… 读者应具备一些基本的统计学知识,包括方差、相关性、简单线性回归和基本的假设检验(例如,p值和检验统计量)。
— 第 vii 页,《应用预测建模》,2013年
这里是另一个来自热门书籍《统计学习导论》的例子:
我们期望读者至少学过一门基础统计学课程。
— 第 9 页,《统计学习导论:R语言应用》,2013年。
即使统计学不是先决条件,也需要一些基本的先验知识,这可以从广为阅读的《集体智慧编程》中的这段引文中看出:
… 本书不假定您具备任何 […] 或统计学的先验知识。 […] 但具备一些三角学和基础统计学知识将有助于您理解这些算法。
— 第 xiii 页,《集体智慧编程:构建智能 Web 2.0 应用》,2007年。
为了能够理解机器学习,需要对统计学有一些基本的了解。
要明白为什么会这样,我们必须首先理解为什么我们一开始就需要统计学这个领域。
需要机器学习统计学方面的帮助吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
为什么要学习统计学?
原始观测本身只是数据,但它们不是信息或知识。
数据会引出问题,例如:
- 最常见或最期望的观测值是什么?
- 观测值的范围限制是什么?
- 数据看起来是什么样的?
尽管这些问题看起来很简单,但必须回答它们,才能将原始观测数据转化为我们可以使用和分享的信息。
除了原始数据,我们可能还会设计实验来收集观测数据。从这些实验结果中,我们可能会有更复杂的问题,例如:
- 哪些变量最相关?
- 两个实验的结果有何不同?
- 这些差异是真实的,还是数据中噪声导致的结果?
这类问题非常重要。其结果对项目、对利益相关者以及对有效决策都至关重要。
要找到我们对数据所提问题的答案,就需要统计方法。
我们可以看到,为了理解用于训练机器学习模型的数据,以及解释测试不同机器学习模型的结果,都需要使用统计方法。
这仅仅是冰山一角,因为预测建模项目中的每一步都需要使用统计方法。
什么是统计学?
统计学是数学的一个分支领域。
它指的是处理数据和使用数据来回答问题的一系列方法。
统计学是一门针对难题进行数值推测的艺术。 […] 这些方法是几百年来由那些寻求问题答案的人们发展起来的。
— 第 xiii 页,《统计学》,第四版,2007年。
正因为该领域是由各种处理数据的方法大杂烩组成的,所以对于初学者来说,它可能显得庞大而无定形。很难看清哪些方法属于统计学,哪些属于其他研究领域。通常,一种技术既可以是经典的统计学方法,也可以是用于特征选择或建模的现代算法。
虽然掌握实用的统计学知识不需要深厚的理论知识,但一些来自统计学与概率论之间关系的重要且易于理解的定理,可以提供一个宝贵的基础。
两个例子包括大数定律和中心极限定理;前者有助于理解为什么样本量越大通常越好,后者则为我们如何比较样本间的期望值(例如均值)提供了基础。
当谈到我们在实践中使用的统计工具时,将统计学领域划分为两大类方法会很有帮助:用于总结数据的描述性统计学,以及用于从数据样本中得出结论的推断性统计学。
统计学允许研究人员从大量人群中收集信息或数据,然后总结他们的典型经历。[…] 统计学也用于得出关于群体间普遍差异的结论。[…] 统计学还可以用来查看两个变量的分数是否相关,并进行预测。
第 ix-x 页,《简明统计学》,第三版,2010年。
描述性统计学
描述性统计学指的是将原始观测数据总结为我们能够理解和分享的信息的方法。
通常,我们认为描述性统计学是在数据样本上计算统计值,以总结数据样本的属性,例如常见的期望值(如均值或中位数)和数据的离散程度(如方差或标准差)。
描述性统计学也可能涵盖可用于可视化数据样本的图表方法。图表和图形可以为我们提供对观测值的形态或分布,以及变量之间可能存在的相互关系的有用定性理解。
推断性统计学
推断性统计学是一个比较专业的术语,指的是那些帮助我们从一个称为样本的较小观测数据集中量化领域或总体属性的方法。
通常,我们认为推断性统计学是从总体分布中估计数量,例如期望值或离散程度。
更复杂的统计推断工具可以用来量化在某个假设下观测到数据样本的可能性。这些通常被称为统计假设检验工具,其中检验的基本假设被称为零假设。
考虑到我们可能假设的假设范围以及为增加检验结果的功效或正确可能性而对数据施加的约束,推断性统计方法有很多例子。
进一步阅读
如果您想深入了解,本节提供了更多关于该主题的资源。
书籍
- 应用预测建模, 2013
- 统计学习导论:R语言应用, 2013.
- 集体智慧编程:构建智能 Web 2.0 应用, 2007.
- 《统计学》,第四版,2007年。
- 统计学大全:统计推断简明教程, 2004.
- 《简明统计学》,第三版,2010年。
文章
总结
在这篇文章中,您清楚地发现了为什么统计学在总体上以及对机器学习都非常重要,以及通常有哪些类型的方法可用。
具体来说,你学到了:
- 统计学通常被认为是应用机器学习领域的先决条件。
- 我们需要统计学来帮助将观测数据转化为信息,并回答关于观测样本的问题。
- 统计学是在数百年间发展起来的一系列工具集合,用于在给定观测样本的情况下总结数据和量化某个领域的属性。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
嗨
如果数据集是“高”的(tall)。那么我们该如何抽样呢?我的意思是用什么方法来选择样本。
此致
我猜你说的“高”是指有很多行。你可以随机选择行作为子样本。
是的,我指的是大量的行。但是我如何才能获得高质量的样本来代表大部分数据呢?应该使用哪种方法?
通常可以使用描述性统计来确认数据样本是否能代表总体。
假设检验可以证实这些发现。
我认为 Khan 可以通过取不同行样本的均值来使用中心极限定理…
我们如何将这些统计技能与编程结合起来,并应用它们来解决现实世界的问题,尤其是在机器学习和人工智能问题上?
好问题,这里有10个例子:
https://machinelearning.org.cn/statistical-methods-in-an-applied-machine-learning-project/
你好,
1) 描述性统计和探索性数据分析(EDA)是一样的吗?
2) 描述性统计在应用机器学习中是如何使用的?
3) 推断性统计在应用机器学习中是如何使用的?
谢谢你
EDA 是一个可以使用描述性统计的过程。
描述性统计可以为如何更好地准备建模数据提供信息。
机器学习是应用推断。我们正在建立归纳模型。
什么是正态分布?
它与样本大小和代表性样本有何关系?
这篇文章会有帮助:
https://machinelearning.org.cn/statistical-data-distributions/
谢谢你。
可以这么说吗,一个正态分布显示了总体的代表性样本?
不。一个样本可能服从正态分布,也可能不服从,可能具有代表性,也可能不具有。
我明白一个样本可能服从或不服从正态分布,或者具有或不具有代表性,但如果它是正态的,那它是否就具有代表性?
谢谢你。
我不会这么说。它可能服从正态分布,但由于功效不足,因此不具有代表性。
分类器是否依赖于众数、均值和中位数?如果是,那么是如何依赖的以及为什么?这些统计量如何帮助我们选择分类器?
这取决于具体的算法。有些算法确实依赖。
如果一个数据集有四列,每一列都有自己的均值...我们如何为整个数据集得到一个总的均值?
你不需要这样做。
你具体想实现什么?
如果我的数据集排列成4列……我只想要整个数据集的一个总均值,而不是四列的4个均值。
如果所有列衡量的是同一事物,那么或许可以将它们堆叠成一列然后计算均值。
如果不是,跨列计算均值是无效的,并且没有任何意义。
请不要让我多次输入电子邮件。虽然你在做生意,但也请做得专业一些。保持简洁,避免垃圾信息。
我提供许多(17个以上)关于不同主题的迷你课程。我需要在每个课程上设置一个门槛,这样你就不会感到不知所措。