你不需要在学习和应用机器学习之前了解统计学。你可以从今天开始。
然而,了解一些统计学知识有助于理解机器学习中使用的语言。当你想要对你的结果做出有力断言时,了解一些统计学知识最终是必要的。
在这篇文章中,你将发现一些关键的统计学概念,这些概念将为你提供入门和在机器学习方面取得进展所需的信心。
通过我的新书《机器学习统计学》来启动你的项目,书中包含分步教程和所有示例的Python源代码文件。
让我们开始吧。

机器学习统计学速成课程
照片由 Rob Ireton 拍摄,保留部分权利。
统计推断
现实世界中有一些过程是我们希望去理解的。
例如,人类行为,比如点击广告或购买产品。
它们并不容易理解。存在复杂性和不确定性。这个过程带有随机性(它是随机的)。
我们通过进行观察和收集数据来理解这些过程。数据不是过程本身,而是过程的代理,它为我们提供了可以用来理解过程的东西。
我们用来进行观察和收集或抽样数据的方法也会给数据带来不确定性。连同现实世界过程中固有的随机性,我们的数据现在有了两个随机来源。
根据我们收集到的数据,我们对其进行清理,创建一个模型,并尝试对现实世界中的过程说些什么。
例如,我们可能会做出预测或描述过程中的元素之间的关系。
这就是所谓的统计推断。我们从一个现实世界的随机过程出发,收集并对数据中的过程进行建模,然后回到现实世界中的过程,对它说些什么。
需要机器学习统计学方面的帮助吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
统计总体
数据属于一个总体(*N*)。数据总体是指所有可能进行的观测。总体是抽象的、理想的。
当你进行观察或处理数据时,你正在处理的是总体的一个样本(*n*)。
如果你正在处理一个预测问题,你旨在最好地利用 *n* 来描述 *N*,从而最小化你从你的系统将遇到的其他 *n* 中所做预测的错误。
你必须小心你的样本选择和处理。数据的规模和质量将影响你有效描述问题、进行预测或描述数据的能力。在数据收集过程中引入的随机性(偏差)必须被考虑,甚至被操纵、管理或纠正。
大数据
大数据承诺你不再需要担心抽样数据,你可以处理所有数据。
也就是说,你处理的是 *N* 而不是 *n*。这是错误且危险的想法。
你仍然是在处理一个样本。你可以看到情况是如何的。例如,如果你正在为一个SaaS业务建模客户数据,你处理的是在建模之前找到并注册该服务的用户总体的样本。这些注意事项会使你处理的数据产生偏差。
你必须小心不要过度推广你的发现,谨慎对待超出你已观察数据的声明。例如,所有 Twitter 用户的趋势并不代表所有人类的趋势。
另一方面,大数据允许你对每个个体实体进行建模,例如一个客户(n=1),使用迄今为止收集到的关于该实体的所有数据。这是一个强大、令人兴奋但计算量巨大的前沿。
统计模型
世界是复杂的,我们需要通过假设来简化它,以便理解它。
模型是对现实世界中某个过程的简化。它总是会出错,但它可能是有用的。
统计模型描述了数据属性之间的关系,例如一个因变量与自变量的关系。
你可以事先考虑你的数据,并提出一个描述数据之间关系的 模型。
你也可以运行机器学习算法,这些算法假设某种类型的模型以特定形式描述关系,并找到拟合模型数据的参数。这就是拟合、过拟合和欠拟合概念的由来,其中模型过于具体或不够具体,无法超出观察数据的泛化能力。
简单的模型比复杂的模型更容易理解和使用。因此,对于一个问题,最好从最简单的模型开始,并在需要时增加复杂性。例如,在考虑非线性模型之前,假设你的模型具有线性形式,在考虑非参数模型之前,假设参数模型。
总结
在这篇文章中,你对入门机器学习所需的关键统计概念进行了一个简短的速成课程。
具体来说,就是统计推断、统计总体、大数据理念如何融入,以及统计模型。
慢慢来,统计学是一个很大的领域,你不需要全部了解。
不要急着去买一本统计学本科教材,至少现在不要。那太难了,太早了。
如果你正在寻找更多信息,我建议你从阅读机器学习书籍中的统计学导论部分开始,例如《数据科学实战:来自一线实战的直言不讳》的第二章,这篇文章的灵感就来源于此。
有关更多信息,请考虑查看一些链接的维基百科文章。
更进一步,可汗学院有一些很棒的统计学和概率模块。
欢迎来到高级分析和大数据
很多人不考虑这一点,我想知道为什么连受过良好教育的统计学家也会这样做——使用样本而不是完整的数据集
这种方法会破坏预测,因为模型被干扰,甚至变得无用,通过样本引入更多任意和随机的假设
更糟糕的是,统计学试图用各种置信度、相关性和概率因子来弥补,但同样,样本不是真实世界
考虑识别例如稀有模式,你会被搞砸,因为你在使用样本时遗漏了信息——误导了你的决定
所以,最好的方法是对你的所有数据进行数学运算,而不仅仅是样本
非常好,容易理解——我特别喜欢你描述了“大数据”的一些常见谬误,并暗示了样本/设计问题,而没有让新手感到不知所措。我不知道那些还没有深入了解这些问题的人是否还能理解——但为你试图阐明这些问题并指出人们可以了解更多的地方所做的出色工作点赞。
谢谢 Jennifer