不确定性涉及在信息不完整的情况下做出决策,而这正是我们在世界中通常的运作方式。
处理不确定性通常使用日常词汇来描述,如机会、运气和风险。
概率是数学的一个领域,它为我们提供了量化事件不确定性并以原则性方式进行推理的语言和工具。
在这篇文章中,您将发现一个对概率的简要介绍。
阅读本文后,你将了解:
- 确定性是不寻常的,世界是混乱的,需要在不确定性下运作。
- 概率量化了一个事件发生的可能性或信念。
- 概率论是关于不确定性的数学。
用我的新书《机器学习概率》来启动您的项目,书中包含分步教程以及所有示例的Python 源代码文件。
让我们开始吧。
- 2019年9月更新:修正了赔率到概率转换中的拼写错误(感谢 Michael)。

什么是概率?
照片由 Emma Jane Hogbin Westby 拍摄,保留部分权利。
概述
本教程分为四个部分;它们是
- 不确定性是常态
- 事件的概率
- 概率论
- 概率的两个学派
不确定性是常态
不确定性指的是不完美或不完整的信息。
许多数学都专注于确定性和逻辑。
许多编程也是如此,我们开发软件时假设它将确定性地执行。然而,在底层,计算机硬件会受到噪音和错误的影响,这些噪音和错误一直在被检查和纠正。
拥有完美和完整信息的确定性是不寻常的。那是游戏和人为设计的例子的领域。
我们所做或感兴趣的几乎所有事情都涉及在不确定性或错误性连续谱上的信息。世界是混乱和不完美的,我们必须在这种不确定性面前做出决策和行动。
例如,我们经常谈论运气、机会、赔率、可能性和风险。这些是我们用来解释和协商世界中不确定性的词语。
在不确定的世界中进行推断和推理时,我们需要有原则的、正式的方法来表达和解决问题。
概率提供了处理不确定性的语言和工具。
想学习机器学习概率吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
事件的概率
概率是量化一个事件发生可能性的度量。
例如,我们可以量化一个社区发生火灾、一个地区发生洪水或一个产品被购买的概率。
一个事件的概率可以通过直接计算该事件的所有发生次数,然后除以该事件可能发生的总次数来计算。
- 概率 = 发生次数 / (未发生次数 + 发生次数)
指定的概率是一个分数值,并且总是在0和1之间,其中0表示没有概率,1表示完全概率。
所有可能事件的概率之和为概率值1。
如果所有可能的发生都是等可能的,那么它们发生的概率是1除以总的可能发生次数或试验次数。例如,掷一个公平的骰子,数字1到6中的每一个都同样可能出现,因此每个数字出现的概率是1/6或0.166。
概率通常写成小写字母“p”,并且可以通过将该值乘以100来表示为百分比。例如,概率0.3可以表示为30%(即 0.3 * 100)。一个事件的概率为50%,通常被称为“50-50的机会”,意味着它有一半的时间可能发生。
一个事件(如洪水)的概率通常用大写字母“P”表示的函数(例如,概率函数)来表示。例如:
- P(洪水) = 洪水的概率
它有时也写成小写字母“p”或“Pr”的函数。例如:p(洪水) 或 Pr(洪水)。
概率的补集可以表示为1减去该事件的概率。例如:
- 1 – P(洪水) = 没有洪水的概率
一个事件的概率或可能性也通常被称为该事件的赔率或机会。这些通常都指同一个概念,尽管赔率通常有其自己的表示法,即赢与输的比率,写作 w:l;例如,1:3 表示1次赢和3次输,或者说赢的概率为1/4 (25%)。
我们已经描述了朴素概率,尽管概率论允许我们更加通用。
概率论
更广泛地说,概率是逻辑的延伸,可用于量化、管理和利用不确定性。
作为一个研究领域,它通常被称为概率论,以区别于特定事件的可能性。
概率可以被看作是处理不确定性的逻辑的延伸。[…] 概率论提供了一套正式的规则,用于在给定其他命题的可能性的情况下,确定一个命题为真的可能性。
— 第56页 《深度学习》,2016年。
概率论有三个重要概念:
- 事件 (A)。一个被赋予概率的结果。
- 样本空间 (S)。可能的结果或事件的集合。
- 概率函数 (P)。用于给事件分配概率的函数。
从样本空间 (S) 中抽取出事件 (A) 的可能性由概率函数 (P) 决定。
样本空间中所有事件的形状或分布被称为概率分布。许多领域中事件的概率分布都有一个熟悉的形式,例如,如果所有事件都等可能,则为均匀分布;如果事件的可能性形成正态或钟形,则为高斯分布。
概率构成了许多应用数学领域的基础,包括统计学,并且是许多更高级研究领域的重要基础,包括物理学、生物学和计算机科学。
概率的两个学派
有两种主要的方式来解释或思考概率。
也许更简单的方法是将概率视为事件的实际可能性,称为频率派概率。另一种方法是将概率视为对事件会发生的信念强度的概念,称为贝叶斯概率。
并不是说一种方法是正确的而另一种是错误的;相反,它们是互补的,两种解释都提供了不同且有用的技术。
频率派概率
频率派概率方法是客观的。
事件被观察和计数,它们的频率为直接计算概率提供了基础,因此得名“频率派”。
概率论最初是为了分析事件的频率而发展的。
— 第55页 《深度学习》,2016年。
频率派概率的方法包括用于统计推断的p值和置信区间,以及用于参数估计的最大似然估计。
贝叶斯概率
贝叶斯概率方法是主观的。
概率是根据证据和个人信念分配给事件的,并以贝叶斯定理为中心,因此得名“贝叶斯”。这使得概率可以分配给非常罕见的事件和以前从未观察到的事件,这与频率派概率不同。
贝叶斯解释的一大优势是,它可以用来模拟我们对那些没有长期频率的事件的不确定性。
— 第27页, 《机器学习:概率视角》,2012年。
贝叶斯概率的方法包括用于推断的贝叶斯因子和可信区间,以及用于参数估计的贝叶斯估计器和最大后验估计。
进一步阅读
如果您想深入了解,本节提供了更多关于该主题的资源。
书籍
- 《概率论:科学的逻辑》, 2003.
- 《概率导论》,第2版,2019年。
- 《概率导论》,第2版,2008年。
文章
总结
在这篇文章中,您发现了一个对概率的简要介绍。
具体来说,你学到了:
- 确定性是不寻常的,世界是混乱的,需要在不确定性下运作。
- 概率量化了一个事件发生的可能性或信念。
- 概率论是关于不确定性的数学。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
我认为是“概率 = 发生次数 / (未发生次数 + 发生次数)”。要注意运算顺序。
谢谢,我加上了括号使其更清晰。
在信息不完整的情况下做决策
太棒了!