机器学习统计学速成课程。
在7天内掌握机器学习中使用的统计学知识。
统计学是数学的一个领域,被普遍认为是更深入理解机器学习的先决条件。
虽然统计学是一个庞大的领域,有许多深奥的理论和发现,但机器学习从业者需要掌握该领域的基本工具和符号。只要对统计学是什么有坚实的基础,就有可能只关注那些好的或相关的部分。
在这个速成课程中,您将发现在七天内,如何开始并自信地阅读和用Python实现机器学习中使用的统计方法。
这是一篇内容丰富且重要的文章。您可能想把它加入书签。
通过我的新书《机器学习统计学》来启动您的项目,书中包含分步教程以及所有示例的Python源代码文件。
让我们开始吧。

机器学习统计学(7 天迷你课程)
照片由Graham Cook拍摄,保留部分权利。
本速成课程适合谁?
在开始之前,让我们确保您来对了地方。
本课程面向可能了解一些应用机器学习的开发人员。也许您知道如何使用流行工具从头到尾解决一个预测建模问题,或者至少了解大部分主要步骤。
本课程的课程假设您具备以下几点:
- 您熟悉基本的Python编程。
- 您可能了解一些基本的NumPy用于数组操作。
- 您想学习统计学以加深对机器学习的理解和应用。
您不需要知道:
- 您不需要是数学天才!
- 您不需要是机器学习专家!
本速成课程将带您从一个略懂机器学习的开发人员,成长为能够掌握统计方法基础知识的开发人员。
注意:本速成课程假设您有一个可用的Python3 SciPy环境,并且至少安装了NumPy。如果您在环境配置上需要帮助,可以按照此处的逐步教程进行操作:
速成课程概览
本速成课程分为七节课。
您可以每天完成一节课(推荐),或者在一天内完成所有课程(硬核)。这真的取决于您的可用时间和热情程度。
以下是七节课的列表,将帮助您开始并高效地在Python中应用统计学进行机器学习:
- 第01课:统计学与机器学习
- 第02课:统计学导论
- 第03课:高斯分布与描述性统计
- 第04课:变量间的相关性
- 第05课:统计假设检验
- 第06课:估计统计学
- 第07课:非参数统计学
每节课可能需要60秒到30分钟不等。请慢慢来,按照自己的节奏完成课程。在下面的评论中提问,甚至发布结果。
这些课程希望您能自己去寻找做事的方法。我会给您提示,但每节课的部分目的就是迫使您学会去哪里寻找关于统计方法、NumPy API以及Python中最佳工具的帮助(提示:我在这个博客上直接提供了所有答案;请使用搜索框)。
在评论中发布您的结果;我会为您加油!
坚持下去;不要放弃。
注意:这只是一个速成课程。有关更多细节和详细教程,请参阅我关于该主题的书籍《机器学习统计方法》。
需要机器学习统计学方面的帮助吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
第01课:统计学与机器学习
在本课中,您将发现机器学习从业者应该加深对统计学理解的五个原因。
1. 统计学在数据准备中的应用
在为机器学习模型准备训练和测试数据时,需要使用统计方法。
这包括以下技术:
- 异常值检测。
- 缺失值插补。
- 数据采样。
- 数据缩放。
- 变量编码。
等等。
对数据分布、描述性统计和数据可视化的基本理解是必需的,以帮助您在执行这些任务时选择合适的方法。
2. 统计学在模型评估中的应用
在评估机器学习模型在训练期间未见过的数据上的性能时,需要使用统计方法。
这包括以下技术:
- 数据采样。
- 数据重采样。
- 实验设计。
像k折交叉验证这样的重采样技术通常被机器学习从业者所熟知,但为什么需要这种方法的理由却不甚了解。
3. 统计学在模型选择中的应用
在为预测建模问题选择最终模型或模型配置时,需要使用统计方法。
这些技术包括:
- 检查结果之间是否存在显著差异。
- 量化结果之间差异的大小。
这可能包括使用统计假设检验。
4. 统计学在模型展示中的应用
向利益相关者展示最终模型的性能时,需要使用统计方法。
这包括以下技术:
- 总结模型的平均预期性能。
- 量化模型在实践中性能的预期变异性。
这可能包括估计统计,如置信区间。
5. 统计学在预测中的应用
当使用最终模型对新数据进行预测时,需要使用统计方法。
这包括以下技术:
- 量化预测的预期变异性。
这可能包括估计统计,如预测区间。
您的任务
对于本课,您必须列出您个人想要学习统计学的三个原因。
请在下面的评论中发布您的答案。我很想看看您能想出什么。
在下一课中,您将发现统计学的一个简明定义。
第02课:统计学导论
在本课中,您将发现统计学的一个简明定义。
对于大多数应用机器学习的书籍和课程来说,统计学是必需的先决条件。但统计学究竟是什么?
统计学是数学的一个子领域。它指的是一套处理数据并使用数据来回答问题的方法集合。
由于该领域是由处理数据的大杂烩方法组成的,因此对于初学者来说,它可能显得庞大而无形。很难看出哪些方法属于统计学,哪些方法属于其他研究领域。
当涉及到我们在实践中使用的统计工具时,将统计学领域划分为两大类方法会很有帮助:用于总结数据的描述性统计,和用于从数据样本中得出结论的推断性统计。
- 描述性统计:描述性统计指的是将原始观测数据总结为我们可以理解和分享的信息的方法。
- 推断性统计:推断性统计是一个听起来很高级的名字,它指的是那些帮助从一个称为样本的较小观察集合中量化领域或总体属性的方法。
您的任务
对于本课,您必须列出三种可用于描述性统计和推断性统计的方法。
请在下面的评论中发布您的答案。我很想看看您会发现什么。
在下一课中,您将学习高斯分布以及如何计算汇总统计量。
第03课:高斯分布与描述性统计
在本课中,您将学习数据的高斯分布以及如何计算简单的描述性统计量。
数据样本是从一个更广泛的总体中获取的快照,该总体包含了从一个领域或由一个过程生成的所有可能观察值。
有趣的是,许多观察值都符合一种常见的模式或分布,称为正态分布,或者更正式地称为高斯分布。它就是您可能熟悉的钟形分布。
关于高斯分布已经有很多已知知识,因此,有一些统计学和统计方法的子领域可以专门用于处理高斯数据。
任何高斯分布,以及从高斯分布中抽取的任何数据样本,都可以用两个参数来概括:
- 均值(Mean):分布的中心趋势或最可能的值(钟形的顶点)。
- 方差(Variance):观测值与均值的平均差异(分布的离散程度)。
均值的单位与分布的单位相同,但方差的单位是平方的,因此更难解释。方差参数的一个常用替代是标准差(standard deviation),它就是方差的平方根,使得单位恢复到与分布单位相同。
均值、方差和标准差可以直接在NumPy中对数据样本进行计算。
下面的例子生成了一个包含100个随机数的样本,这些数是从一个已知均值为50、标准差为5的高斯分布中抽取的,并计算了汇总统计量。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
# 计算汇总统计量 from numpy.random import seed from numpy.random import randn from numpy import mean from numpy import var from numpy import std # 为随机数生成器设置种子 seed(1) # 生成单变量观测值 data = 5 * randn(10000) + 50 # 计算统计量 print('均值: %.3f' % mean(data)) print('方差: %.3f' % var(data)) print('标准差: %.3f' % std(data)) |
运行该示例,并将估计的均值和标准差与期望值进行比较。
您的任务
对于本课,您必须在Python中从头实现一个描述性统计量的计算,例如计算样本均值。
请在下面的评论中发布您的答案。我很想看看您会发现什么。
在下一课中,您将学习如何量化两个变量之间的关系。
第04课:变量间的相关性
在本课中,您将学习如何计算相关系数来量化两个变量之间的关系。
数据集中的变量可能因多种原因而相关。
在数据分析和建模中,更好地理解变量之间的关系非常有用。两个变量之间的统计关系称为它们的相关性。
相关性可以是正向的,意味着两个变量朝同一方向移动;也可以是负向的,意味着当一个变量的值增加时,另一个变量的值减少。
- 正相关:两个变量朝同一方向变化。
- 无相关:变量变化之间没有关系。
- 负相关:变量朝相反方向变化。
如果两个或多个变量紧密相关,即存在多重共线性,某些算法的性能可能会下降。一个例子是线性回归,其中应该移除一个有问题的相关变量以提高模型的性能。
我们可以使用一种名为皮尔逊相关系数(Pearson's correlation coefficient)的统计方法来量化两个变量样本之间的关系,该方法以其开发者卡尔·皮尔逊(Karl Pearson)的名字命名。
pearsonr() NumPy函数可以用来计算两个变量样本的皮尔逊相关系数。
下面列出了完整的示例,展示了当一个变量依赖于另一个变量时如何进行计算。
1 2 3 4 5 6 7 8 9 10 11 12 13 |
# 计算相关系数 from numpy.random import seed from numpy.random import randn from scipy.stats import pearsonr # 设定随机数生成器种子 seed(1) # 准备数据 data1 = 20 * randn(1000) + 100 data2 = data1 + (10 * randn(1000) + 50) # 计算皮尔逊相关性 corr, p = pearsonr(data1, data2) # 显示相关性 print('皮尔逊相关性: %.3f' % corr) |
运行该示例并查看计算出的相关系数。
您的任务
对于本课,您必须加载一个标准的机器学习数据集,并计算每对数值变量之间的相关性。
请在下面的评论中发布您的答案。我很想看看您会发现什么。
在下一课中,您将学习统计假设检验。
第05课:统计假设检验
在本课中,您将学习统计假设检验以及如何比较两个样本。
数据必须经过解释才能赋予意义。我们可以通过假设我们的结果具有特定结构,并使用统计方法来确认或拒绝该假设来解释数据。
这种假设被称为假设,而用于此目的的统计检验被称为统计假设检验。
统计检验的假设被称为零假设(null hypothesis),或假设零(简写为H0)。它通常被称为默认假设,或者假设没有任何变化。对检验假设的违反通常被称为第一假设,假设一,或简写为H1。
- 假设0 (H0):检验的假设成立,未能被拒绝。
- 假设1 (H1):检验的假设不成立,在某个显著性水平上被拒绝。
我们可以使用p值来解释统计假设检验的结果。
p值是在零假设为真的情况下,观察到当前数据的概率。
概率大意味着H0或默认假设很可能是成立的。一个较小的值,例如低于5%(0.05),表明它不太可能成立,我们可以拒绝H0而支持H1,或者说某些东西很可能有所不同(例如,一个显著的结果)。
一个广泛使用的统计假设检验是学生t检验(Student's t-test),用于比较两个独立样本的均值。
默认假设是样本之间没有差异,而拒绝此假设则表明存在某种显著差异。该检验假定两个样本都来自高斯分布且具有相同的方差。
学生t检验可以通过SciPy的ttest_ind()函数在Python中实现。
以下是一个示例,展示了如何对两个已知存在差异的数据样本计算和解释学生t检验。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
# 学生t检验 from numpy.random import seed from numpy.random import randn from scipy.stats import ttest_ind # 为随机数生成器设置种子 seed(1) # 生成两个独立样本 data1 = 5 * randn(100) + 50 data2 = 5 * randn(100) + 51 # 比较样本 stat, p = ttest_ind(data1, data2) print('统计量=%.3f, p值=%.3f' % (stat, p)) # 解释 alpha = 0.05 if p > alpha: print('分布相同 (未能拒绝H0)') else: print('分布不同 (拒绝H0)') |
运行代码并查看计算出的统计量和对p值的解释。
您的任务
对于本课,您必须列出另外三种可用于检查样本间差异的统计假设检验。
请在下面的评论中发布您的答案。我很想看看您会发现什么。
在下一课中,您将学习作为统计假设检验替代方案的估计统计学。
第06课:估计统计学
在本课中,您将学习估计统计学,它可以作为统计假设检验的替代方法。
统计假设检验可以用来指示两个样本之间的差异是否由随机机会引起,但不能评论差异的大小。
一组被称为“新统计学”的方法正越来越多地被用于替代或补充p值,以量化效应的大小和估计值的不确定性。这组统计方法被称为估计统计学。
估计统计学是一个术语,用来描述三类主要的方法。这三大类
方法包括:
- 效应量:用于量化处理或干预措施所产生效应大小的方法。
- 区间估计:用于量化一个值中不确定性程度的方法。
- 元分析:用于量化多个相似研究结果的方法。
在这三者中,应用机器学习中最有用的方法可能是区间估计。
区间主要有三种类型。它们是:
- 容忍区间:在特定置信水平下,覆盖分布一定比例的界限。
- 置信区间:对总体参数估计的界限。
- 预测区间:对单个观测值的界限。
计算分类算法置信区间的一个简单方法是计算二项比例置信区间,这可以为模型的估计准确率或错误率提供一个区间。
这可以在Python中使用Statsmodels的confint()函数来实现。
该函数接受成功(或失败)次数、总试验次数和显著性水平作为参数,并返回置信区间的下限和上限。
下面的示例演示了在一个假设案例中该函数的用法:一个模型在包含100个实例的数据集上做出了88次正确预测,我们关心的是95%的置信区间(作为0.05的显著性水平提供给函数)。
1 2 3 4 5 |
# 计算置信区间 from statsmodels.stats.proportion import proportion_confint # 计算区间 lower, upper = proportion_confint(88, 100, 0.05) print('下限=%.3f, 上限=%.3f' % (lower, upper)) |
运行该示例并查看估计准确率的置信区间。
您的任务
对于本课,您必须列出两种在应用机器学习中计算效应量的方法,并说明它们可能在何时有用。
作为提示,可以考虑一个用于变量间关系,另一个用于样本间差异。
请在下面的评论中发布您的答案。我很想看看您会发现什么。
在下一课中,您将学习非参数统计方法。
第07课:非参数统计学
在本课中,您将学习当您的数据不服从高斯分布时可以使用的统计方法。
统计学和统计方法的很大一部分是专门针对分布已知的数据。
分布未知或不易识别的数据称为非参数数据。
当您处理非参数数据时,可以使用专门的非参数统计方法,这些方法会舍弃所有关于分布的信息。因此,这些方法通常被称为免分布方法。
在应用非参数统计方法之前,必须将数据转换为秩格式。因此,期望数据为秩格式的统计方法有时被称为秩统计,例如秩相关和秩统计假设检验。对数据进行排序正如其名所示。
步骤如下:
- 将样本中所有数据按升序排序。
- 为数据样本中的每个唯一值分配一个从1到N的整数秩。
一种广泛使用的非参数统计假设检验,用于检查两个独立样本之间是否存在差异的是曼-惠特尼U检验(Mann-Whitney U test),以亨利·曼(Henry Mann)和唐纳德·惠特尼(Donald Whitney)的名字命名。
它是学生t检验的非参数等价物,但不假定数据来自高斯分布。
该检验可以通过SciPy的mannwhitneyu()函数在Python中实现。
下面的例子演示了对两个从均匀分布中抽取且已知存在差异的数据样本进行该检验。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
# 曼-惠特尼U检验示例 from numpy.random import seed from numpy.random import rand from scipy.stats import mannwhitneyu # 为随机数生成器设置种子 seed(1) # 生成两个独立样本 data1 = 50 + (rand(100) * 10) data2 = 51 + (rand(100) * 10) # 比较样本 stat, p = mannwhitneyu(data1, data2) print('统计量=%.3f, p值=%.3f' % (stat, p)) # 解释 alpha = 0.05 if p > alpha: print('分布相同 (未能拒绝H0)') else: print('分布不同 (拒绝H0)') |
运行该示例并查看计算出的统计量以及对p值的解释。
您的任务
对于本课,您必须列出另外三种非参数统计方法。
请在下面的评论中发布您的答案。我很想看看您会发现什么。
这是迷你课程的最后一课。
结束!
(看看您已经走了多远)
您做到了。干得好!
花点时间回顾一下您已经走了多远。
您发现了:
- 统计学在应用机器学习中的重要性。
- 统计学的简明定义,以及将方法分为两种主要类型。
- 高斯分布以及如何使用统计量描述服从此分布的数据。
- 如何量化两个变量样本之间的关系。
- 如何使用统计假设检验来检查两个样本之间的差异。
- 统计假设检验的替代方案,称为估计统计学。
- 当数据不服从高斯分布时可以使用的非参数方法。
这仅仅是您学习机器学习统计学之旅的开始。继续练习并发展您的技能。
迈出下一步,查阅我的书籍《机器学习统计方法》。
总结
您对这个迷你课程的学习情况如何?
您喜欢这个速成课程吗?
您有任何问题吗?有没有遇到什么难点?
告诉我。在下面留言。
为什么不用R?
很好的问题,我在这里解释了原因
https://machinelearning.org.cn/python-growing-platform-applied-machine-learning/
非常感谢
不客气。
非常感谢!
我也在寻找一个35选48的乐透随机数生成器代码。
乐透是无法预测的
https://machinelearning.org.cn/faq/single-faq/can-i-use-machine-learning-to-predict-the-lottery
为了理解机器学习算法在幕后是如何工作的。
为了理解机器学习是如何工作的。
为了能够有效地完成这些教程。
并有信心亲身实践机器学习
太棒了!
为了理解机器学习算法在幕后是如何工作的。
描述性 – 中位数、标准差、众数
推断性 – AUC、卡帕统计检验、混淆矩阵、F1分数
嗨,Aradhika.. 感谢您宝贵的意见。能告诉我课程的网址吗?我无法访问。
这个页面就是课程。
深受启发。感谢您提供带有实用代码的深入描述。我真的学到了很多。感谢您的工作。
很高兴它有帮助。
为什么我想学习统计学
– 我想了解在训练模型时我在做什么,以及这是否有意义:偏差、假设,这些都非常重要;
– 我想了解经典统计方法和贝叶斯方法之间的区别;
– 我想学习更详细地比较模型,而不仅仅是看准确率数字。
谢谢Nadya!
@ Jason:我无法访问这个迷你课程的链接。能告诉我正确的网址吗?
非常感谢!
哪个链接?
嗨,Jason,似乎获取课程的链接坏了。输入我的邮箱地址后,下载按钮没有任何反应,光标一直转圈。
听到这个消息很抱歉,也许可以试试刷新你的浏览器再试一次?或者换一个浏览器试试?
我们也可以用统计假设检验来检查输入特征之间的相关性吗?
当然可以。
我想学习统计学来加深我对机器学习的理解,并具备良好的统计学背景。
太好了,您来对地方了!
你好 Jason,
回应第02课的任务,我发现
– 描述性统计有正态(或高斯)分布、二项分布和泊松分布。
– 推断性方法有方差分析(ANOVA)、t检验和回归分析。
这样对吗?
太棒了!
嗨,Jason,
我完成了第03课的任务,这是我从头开始计算样本均值的代码。
希望这就是您要求的任务。
干得好!
嗨,Jason,
我使用了本地的鸢尾花(iris)数据集来完成第4课的任务。
下面是我计算每对萼片和花瓣变量之间相关性的代码
干得好!
嗨,Jason,
回应第5课的任务,我找到了以下作为统计假设检验的方法:
– 沃尔德检验(也称为沃尔德卡方检验)是一种用来判断模型中的解释变量是否显著的方法。“显著”意味着它们为模型增添了价值;那些没有增添任何价值的变量可以被删除,而不会对模型产生任何有意义的影响。
– 柯尔莫哥洛夫-斯米尔诺夫拟合优度检验(K-S检验)将您的数据与一个已知分布进行比较,让您知道它们是否具有相同的分布。
– 格兰杰因果关系检验是一种研究时间序列中两个变量之间因果关系的方法。
干得好!
嗨,Jason,
对于第6课的任务,我发现有超过70种效应量度量,主要分为两组:
– 相关族或关联度量,也称为r族。例如:
皮尔逊r或相关系数,用于测量因变量之间的相关性。
Eta平方(Eta-squared),用于描述因变量内部方差的比例。
– 差异族或组间差异,也称为d族。其计算方式类似于t检验统计量,但不受样本大小的影响,而t检验统计量则会受影响。例如:
科恩d(Cohen's d),定义为两个独立样本的两个均值之差除以数据的标准差。
干得好!
嗨,Jason,
回应第7课的任务,我找到了另外三种非参数统计方法:
安德森-达令检验:检验一个样本是否来自给定的分布
科克伦Q检验:检验在具有0/1结果的随机区组设计中,k个处理是否具有相同的效果
肯德尔tau系数:测量两个变量之间的统计依赖性
谢谢。
Brownlee先生,
在《Python中的17个统计假设检验(备忘单)》(https://machinelearning.org.cn/statistical-hypothesis-tests-in-python-cheat-sheet/) 这篇文章中,您提到安德森-达令检验是“检验一个数据样本是否具有高斯分布”,这与Mohamed给出的定义有冲突。哪个才是正确的定义?
也许这会有帮助。
https://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test
谢谢你,Jason。我真的很喜欢你的迷你课程。它为我提供了我所寻求的对该领域的快速入门。
再次感谢。
谢谢。
我已经完成了Andrew Ng课程中所有的基础机器学习和深度学习,但现在我找到了一份实习,工作更侧重于数据分析和从数据集中获取洞见。因此,我想学习统计学。
谢谢!
1) 我有一个特定的商业问题想要解决,这涉及到机器学习,我知道统计学对此很重要(不仅仅是因为你这么说,Jason)。
2) 我一直觉得统计学很枯燥,因为课堂上的教学方式缺乏背景,并且需要大量的程序性记忆。我很受鼓舞,因为更深入的理解将给我机会解决一个相关的问题,这增加了我学习的动力。
3) 出于商业智能的原因,我希望能够更好地运用数据的语言。
谢谢,Sean。
真是一篇很棒的文章。感谢Jason对机器学习社区的帮助。
谢谢,很高兴对您有帮助。
第一天任务:列出你个人想要学习统计学的三个原因。
1) 我对学习机器学习及其在现实世界场景中的应用感兴趣
2) 正如您在第一天提到的,统计学如何在机器学习的所有阶段中使用
3) 在我看来,仅仅了解机器学习算法是不够的,统计学对于从数据中获得有用的见解同样重要。
谢谢!
让我想要学习统计学的3个原因
1. 我目前有一个实习的深度学习项目。统计学对机器学习至关重要,而机器学习对深度学习至关重要。明白这其中的联系了吧?;D
2. 我学习计算机科学,了解统计学(总体上)是什么将有助于我拓宽在编程之外的其他科学领域的视野。
3. 我目前数学很差,学习数学的一个子领域将逐渐让我的数学水平更上一层楼。
谢谢,Floris!
我想要这本书或者一个下载版
您可以在这里了解更多关于这本书的信息
https://machinelearning.org.cn/statistics_for_machine_learning/
1. 我需要向利益相关者准备模型演示
2. 我需要销售包含机器学习模型的软件解决方案
3. 我是一名工程师
谢谢!
回答你的第2课。描述性:频率、集中趋势、变异.. 推断性:方差分析(ANOVA)、协方差分析(ANCOVA)、回归分析
干得好!
回答你的第3课(希望这是对的)
太棒了!
嗨 Jason,这是你问题4的核心代码(我只包含了最终的计算部分,假设数据已经结构化了)。
干得不错。
Jason,这是我对第05课的回答。
Z检验使用样本和总体均值以及样本和总体标准差来验证零假设,即样本均值是否与总体均值相同?
方差分析(Anova)比较三个或更多样本之间的差异。零假设是所有样本均值都相等。
卡方检验比较分类变量,以及样本是否与总体匹配。零假设是变量a和b是独立的(样本与总体匹配)。
干得不错。
第06课的任务
有两种类型的统计数据可以描述效应大小。
第一种是标准化的,这种类型去除了效应中变量的单位。
第二种是简单的,描述了效应的大小,但保留了变量的原始单位。
比较两种不同条件下的平均温度。
简单的效应大小将是平均温度的差异,单位是摄氏度。
标准化的效应大小统计量会将该平均差异除以标准差。
因此,如果你有两种温度条件,简单的效应大小会得出:条件1下的平均温度比条件2下高23度。
标准化的效应大小会得出:条件1下的平均温度比条件2下高1.8个标准差。
我希望这是正确的。
谢谢。
第07课
1) Kruskal-Wallis检验,用于检验几个样本是否来自同一总体。
该检验是双样本Wilcoxon(Mann-Whitney)秩和检验的多样本推广。
2) Cusum图绘制二进制(0/1)变量yvar的累积和(cusum)与一个(通常)连续变量xvar的关系图。
3) 趋势检验对有序组进行非参数趋势检验。
还有许多其他方法。感谢这门课程,对我非常有帮助。我一直在寻找能帮助我理解机器学习基础知识的东西。
做得非常好,感谢你发布了所有的答案!
第1课
1) 我一直对人工智能及其工作原理有些好奇。
2) 机器学习的应用领域非常广泛。
3) 这是我最喜欢的计算机科学领域之一。
4) 知道有些事情可以用一定的准确度进行预测,这是我绝对想知道的(额外补充)。
干得好!
第2课
描述性统计
* 离散度
* 标准差
* 峰度和偏度
推断性统计
* 协方差分析 (Ancova)
* 因子分析
* 聚类分析
干得好!
我对学习统计学感兴趣,因为我一直对统计学如何在机器学习中得到应用感到着迷。
谢谢!
描述性统计学
1. 均值、中位数、众数
2. 偏度和峰度
3. 方差和标准差
推断性统计
1. 估计
1. 最大似然估计
2. 密度估计
2. 假设检验
3. 置信区间
干得好!
嗨 Jason,感谢你传播知识。
第一天
1. 我喜欢跨不同学科工作,而统计是理解或从任何数据中发现见解的关键。例如,描述性统计、集中趋势等等。
2. 为了深入理解数据的可解释性。因为统计是理解数据的解释性语言。
4. 了解如何对正确的数据类型应用正确的方法。
感谢分享!
#第2课
#在这节课中,你必须从头开始用#Python实现一个描述性统计量的计算,例如计算样本均值。
#我用鸢尾花数据集应用了这个例子
import numpy as np
import math
from sklearn import datasets
iris = datasets.load_iris()
#属性
#1. 萼片长度 (cm)
#2. 萼片宽度 (cm)
#3. 花瓣长度 (cm)
#4. 花瓣宽度 (cm)
X = iris.data
print(X.size)
print(X.shape)
#第0列..所有行
sepal_lenghts = X[: , 0]
print(sepal_lenghts.size)
print(sepal_lenghts.shape)
#和上面做的一样
sepal_width = X[:,1]
petal_lenght = X[:,2]
petal_width = X[:,3]
#“手动”计算均值、方差和标准差! ————-##
#“手动”计算均值 ——————-##
def mean_by_hand(data)
i_arr_summation = 0
for x in np.nditer(data)
i_arr_summation += x
size_data = data.size
mean_data = i_arr_summation / size_data
return mean_data
#“手动”计算方差 ——————————————————-###
def variance_by_hand(data, mean_data, n_data)
sum_var = 0
for x in np.nditer(data)
i_var = x – mean_data #方差 (xi – mi)
i_var *= i_var # ^2
sum_var += i_var #求和
variance = (1/n_data) * sum_var
return variance
#“手动”计算标准差。你是认真的吗?! ————————–####
def standard_dev_by_hand(variance)
standard_dev = math.sqrt(variance) #或 variance**0.5
return standard_dev
#调用函数计算均值、方差和标准差 ———–##############
#均值 ————————————————####
mean_sepal_lenghts = mean_by_hand(sepal_lenghts)
print(“mean sepal_lenght:”, mean_sepal_lenghts)
print(“NUMPY mean sepal_lenght:”, np.mean(sepal_lenghts))
#方差 ————————————————####
n_sepal_lenghts = sepal_lenghts.size
var_sepal_lenghts = variance_by_hand(sepal_lenghts, mean_sepal_lenghts, n_sepal_lenghts)
print(“var sepal_lenght:”, var_sepal_lenghts)
print(“NUMPY var sepal_lenght:”, np.var(sepal_lenghts))
#标准差————————————–####
std_sepal_lengths = standard_dev_by_hand(var_sepal_lenghts)
print(“std sepal_lenght:”, std_sepal_lengths)
print(“NUMPY std sepal_lenght:”, np.std(sepal_lenghts))
更正:#第03课:高斯分布和描述性统计
干得好!
#第4课:变量间的相关性
#我将此示例应用于鸢尾花数据集,特别是在sepal_length和sepal_width属性上,以
#发现它们是否相关
import numpy as np
from sklearn import datasets
iris = datasets.load_iris()
# 计算相关系数
from numpy.random import seed
from numpy.random import randn
from scipy.stats import pearsonr
#属性
#1. 萼片长度 (cm)
#2. 萼片宽度 (cm)
#3. 花瓣长度 (cm)
#4. 花瓣宽度 (cm)
X = iris.data
print(X.size)
print(X.shape)
#第0列..所有行
sepal_lenghts = X[: , 0]
sepal_width = X[:,1]
print(sepal_lenghts)
type(sepal_lenghts)
print(sepal_lenghts.shape)
print(sepal_lenghts.size)
print(sepal_width)
type(sepal_width)
print(sepal_width.shape)
print(sepal_width.size)
# 计算皮尔逊相关性
corr, p = pearsonr(sepal_lenghts, sepal_width)
# 显示相关性:在这种情况下,是负相关
print(‘Pearsons correlation: %.3f’ % corr)
感谢分享!
嗨!
#第1课
列出你个人想学习统计学的三个原因?
1- 最近我了解到,机器学习是基于估计和概率的。这鼓励我学习统计学。
2- 统计学能让我对数据有更深入的理解。
3- 机器学习解决了世界上的实际问题,而实际问题是基于统计学的。
干得好!
嗨
第1课
1. 我有兴趣学习机器学习中底层的统计学知识
2. 它能帮助我成为一名优秀的数据科学家
3. 即使机器学习中出现了新的模型,统计学知识也不会改变,所以我可以很容易地提升自己。
感谢分享!
嗨,Jason,
第1课:列出你个人想学习统计学的3个原因
1. 我一直在寻找新的、易于理解但又全面的统计学练习
2. 我对通过实例学习机器学习感兴趣
3. 希望我能将其中一些方面应用于我的地球科学学位论文。
谢谢你,
干得好!
嗨 Jason
第1课
我想更好地将统计学与机器学习联系起来。
我最近已经学习了一门关于R语言统计学的MOOC(关于我个人使用统计学和R语言的一篇文章,作为这门课程的结果,发布在http://questioneurope.blogspot.com),我想用您的课程来补充它。
诚挚的问候,
Dominique
感谢分享。
嗨,Jason,
第2课
描述性统计方法
a) Spearman 相关:适用于非高斯分布
b) Fisher 检验:用于获得比值比
c) 卡方检验:用于大样本观察。
推断性统计方法
a) 多元线性回归
b) 逻辑回归
c) 主成分分析 (PCA)
诚挚的问候,
Dominique
干得好!
嗨,Jason,
第3课
# 计算汇总统计量
from numpy import mean
from numpy import var
from numpy import std
# 创建一个简单的列表
mylist=[1,2,3,4,5,6,7,8,9,10]
# 计算统计量
print(‘Mean: %.3f’ % mean(mylist))
print(‘Variance: %.3f’ % var(mylist))
print(‘Standard Deviation: %.3f’ % std(mylist))
问题:如何在评论中插入漂亮的代码片段?
谢谢,
Dominique
干得好!
你可以使用 PRE html 标签。
亲爱的 Jason,
第4课 相关性。
我正在使用红酒质量数据集。
相关性结果如下
质量与酒精的皮尔逊相关性为:0.476
质量与硫酸盐的皮尔逊相关性为:0.251
质量与氯化物的皮尔逊相关性为:-0.129
代码如下
干得好!
嗨,Jason,
第5课 统计假设检验。
列出其他三种可用于检查样本间差异的统计假设检验
Mann-Whitney (Wilcoxon) 检验:比较两个独立或配对样本的均值。在 R 语言中:Wilcox.test()
Fisher检验:是一种检验两个样本的观测频率是否相同的方法。仅适用于小样本。该检验是了解比值比的一种方法。在R语言中:fisher.test()
对于大样本,可以使用卡方检验。在R语言中:chisq.test()
干得不错。
嗨,Jason,
第6课 估计统计
对于变量间的关系:Pearson或R2(决定系数)
对于样本间的差异:科恩d,比值比(OR)或相对风险比(RR)。OR和RR可以通过R中的函数twoby2计算。
非常感谢
Dominique
干得好!
嗨,Jason,
第7课:非参数统计方法
3个非参数统计方法的例子
a) Spearman:如果任何一个变量不服从正态分布
b) McNemar:需要在不同时间点对同一组候选人进行观察
c) Kaplan-Meier:用于生存估计
诚挚的问候,
Dominique
干得好!
我想学习统计学,因为它能帮助我提高数据准备和模型评估的技能。
谢谢!
第2课
描述性统计方法:集中趋势度量和离散程度度量。
推断性统计方法:参数估计和统计假设检验。
干得不错。
第3课
做得好,现代字符串格式化用得很棒!
第4课
进步很大!
我完成了第一天的课程。
我需要为机器学习学习统计学的原因是
1. 理解各种概念,例如数据分布、它如何随数据变化、分布如何随数据变化。
2. 更好地理解机器学习概念。
3. 获得关于这些概念的知识。
干得好。
第5课
另外3种统计假设检验是
– Z检验;
– 方差分析(ANOVA);以及
– 卡方检验。
干得好!
第6课
计算效应大小的两种方法
– 皮尔逊r相关;以及
– 科恩d效应大小。
干得漂亮!
第7课
另外3种非参数统计方法
– Wilcoxon符号秩检验;
– Kruskal-Wallis H检验;以及
– 弗里德曼检验。
非常好。
第2课
描述性统计
集中趋势
偏度
相关性
推断性统计
统计显著性
置信区间
假设检验
干得好!
我正在尝试从不同渠道学习机器学习,发现我的统计概念知识水平很低。
1. 我想通过这门课程提升我的统计学习技能。
2. 时间对我来说很重要,所以您提到的课程时长对我来说很重要。
3. 概念清晰并与现实世界挑战相联系非常重要,您在课程描述中的承诺吸引我来到这里。
谢谢!
嗨,Jason,
感谢您这门关于机器学习中统计学的课程。当您谈到计算变量之间的相关性时,我有两个问题
1. 我理解多重共线性会损害某些算法的性能,比如线性回归。我想知道多重共线性是否也会对非线性算法产生负面影响?
2. 一个更实际的问题,当我们检测到一些变量高度相关时,我们应该怎么做?对于每一对相关变量,我们通常应该考虑删除哪一个?我们有什么标准来移除多重共线性吗?
提前感谢您!
不客气。
这取决于算法。有时会,但通常不会。
尝试移除冗余输入,并比较模型在原始数据和转换后数据上的性能。PCA是一种非常简单的方法。
谢谢您的回答,Jason。接着您的第二个回答:例如,通过计算皮尔逊相关系数,我发现多个变量之间高度相关,我该如何确定哪些是冗余的并保留代表性的那个?另外对于PCA,您是指使用PCA来降维并将变量转换为主成分吗?谢谢!
是的,我相信通常的方法是计算每个变量与所有其他变量的相关性得分,并移除相关性最高的一个子集。我没有现成的例子。
是的,PCA会创建一个去除了线性依赖关系的数据集投影。
谢谢你,Jason,非常有帮助。
不客气。
嗨,Jason,
感谢您的概率课程,我发现它对于帮助我理解机器学习算法非常有帮助。您提到了两个指标:对数损失(log loss)和布里尔分数(Brier score),我理解当我们在分类问题中输出概率时,可以用它们来代替准确率。我有两个关于它们的问题
1. 我想知道对于分类问题,什么时候我们应该输出类别标签(使用准确率作为度量),什么时候我们应该输出类别概率(然后使用对数损失和布里尔分数作为度量)?您提到概率可以为预测提供额外的细微差别,您是说这种方式更好吗?
2. 从应用的角度来看,对数损失和布里尔分数有什么区别?
提前非常感谢!
不客气,我很高兴听到这个消息。
好问题——问题需求或项目目标将决定要预测什么,例如标签或概率。如果不是,那可能是一个假的/玩具/练习问题,你可以自己决定。
概率并不更好,它只是不同。它分享了不确定性,这在某些领域有用,而在其他领域则不然。
区别在这里
https://machinelearning.org.cn/probability-metrics-for-imbalanced-classification/
很好的问题!
谢谢你,Jason,一如既往地有帮助!
不客气。
嗨,Jason,假的/玩具/练习问题是什么意思?
不是真实的问题——例如,你只是用它来学习,没有项目利益相关者关心项目的成功/失败。
我想学习数据科学,因此统计学是成为专家的一个重要支柱或组成部分
谢谢!
第1课
1. 我对机器学习有了很好的感觉和理解。想好好探索一下。
2. 我觉得统计学从求职角度来看也非常重要。
3. 你的平台已经帮助了我好几次,并且也会帮助我更好地理解
未来的统计学概念
谢谢。
第1课
1. 在数据预处理、构建模型和评估中,有大量的统计公式。这些公式遍布数据挖掘和机器学习的各个领域,这促使我研究统计学并参加这个迷你课程。
2. 我喜欢理解和衡量数据分布,因为每种分布都会改变我们处理问题的性质。我希望统计学能帮助量化和衡量分布的一些有趣特征。
3. 喜欢深入研究统计学,更好地理解它们。
干得好!
第2课
1. 描述性方法
均值、中位数、众数、极差、频率,描述形状、中心和离散程度。
2. 推断性方法
假设检验、t检验、方差分析、F检验、相关性(卡方)
做得很好。
我想学习统计学,因为
1. 我最近对数据科学产生了兴趣,而统计学似乎是其中的一个重要部分
2. 它将帮助我理解并实施正确的机器学习模型
3. 它会让我更有信心,因为我能完整地了解数据集
谢谢!
描述性统计用于总结数据,并用单个值来表示它。一些常见的描述性统计工具是 -> 均值、标准差和方差。
推断性统计用于研究数据并得出结论。有助于获得推断的方法有 -> 相关性、假设检验(Z、t、F检验)、方差分析。
干得好!
#第三天!
import numpy as np
from numpy.random import seed
from numpy.random import randn
seed(1)
def calc_mean(data)
return sum(data)/len(data)
data_set = 5 * randn(10000) + 50
data_mean = calc_mean(data_set)
print(“%.4f” % data_mean)
#另外,你回复每一条评论真的很值得称赞。你人真好。
干得好!
#我不知道标准数据集是什么意思,所以我在Kaggle上选择了泰坦尼克号生还数据集
#Kaggle
import pandas as pd
import numpy as np
from scipy.stats import pearsonr
data_set = pd.read_csv(“train.csv”)
print(data_set.head())
survived = data_set[‘Survived’] #该值表示乘客是否在泰坦尼克号沉没中幸存下来。
#这是目标变量
pclass = data_set[‘Pclass’] #购买的船票等级
sibsp = data_set[‘SibSp’] #兄弟姐妹数量
parch = data_set[‘Parch’] #父母/子女数量
corr_coeff, p = pearsonr(survived, pclass)
print(“Correation between Survived and Pclass: %.4f” % corr_coeff)
corr_coeff, p = pearsonr(survived, sibsp)
print(“Correation between Survived and sibsp: %.4f” % corr_coeff)
corr_coeff, p = pearsonr(survived, parch)
print(“Correation between Survived and parch: %.4f” % corr_coeff)
#只有生还(survived)和父母/子女数量(parch)呈正相关,为0.0816
干得好!
#第5天
其他假设检验方法
1. Z检验:与t检验类似,但在样本量大于30时使用。
2. 卡方检验:用于对分类数据进行假设检验。
3. 方差分析(ANOVA):如果我们要比较两个以上的均值/样本参数,就使用方差分析。
干得好!
通过阅读你那篇关于估计统计和计算效应大小的非常有用的文章,发现效应大小的方法有:
1. 计算皮尔逊相关系数
2. 科恩d值
太棒了!
最后一天,第7天!
非参数统计方法可以分为两类:
1. 基于秩次计算相关性:斯皮尔曼相关系数;肯德尔相关系数。
2. 比较样本均值:曼-惠特尼U检验;克鲁斯卡尔-沃利斯H检验。
Jason,我非常感谢你这门课程。我会在此基础上继续努力,成为一名优秀的数据科学家。非常感谢。
干得好!
第2课
描述性统计:均值、中位数、方差、直方图、散点图
推断性统计:显著性、假设检验、置信区间、聚类
干得好!
嗨 Jason
我在你的博客中学到了很多。回答第2课的问题。描述性方法有:均值、众数、标准差。
推断性方法有:假设检验、置信区间、回归分析。
这样对吗?谢谢并致以问候。
太棒了!
嗨,Jason,
第3课
“从零开始”
# 17.06.2020/na
# 没有错误处理!
import numpy as np
zahlen = [float(element) for element in
input(“输入数值(逗号分隔):”).split(“,”)]
print(“数值 :”,zahlen)
print(“均值 :”,np.mean(zahlen))
print(“方差:”,np.var(zahlen))
mean_s = np.sum(zahlen)/len(zahlen)
print(“从零开始计算的均值 :”, mean_s )
var_s = np.sum((zahlen – mean_s)**2)/len(zahlen)
print(“从零开始计算的方差:”, var_s)
谢谢
Béla
干得好!
你好 Jason – 感谢你的努力。
第一天 – 学习这个统计学课程的3个理由
1. 我觉得要做好数据分析工作 – 统计学是必须的
2. 虽然我对其他方面都很有信心 – 但统计学是我的弱点。需要提高。问题是我读过一些枯燥的统计学书籍 – 都是为数学奇才写的。我正在寻找一些简洁、切中要点并专注于机器学习的内容。
3. 根据我看到的评论,我觉得你做得很好,所以想尝试一下!
此致,
干得好!
第二天
描述性统计 – 均值、众数、方差
推断性统计 – Z分数、回归、T检验
干得好!
1) 我想学习机器学习,而统计学对机器学习很重要。
2) 我是一名商业智能(BI)开发人员,我想提升我的技能。
3) 为了解决商业机器学习问题,所以我想学习统计学。
谢谢!
数据 [58.12172682 46.94121793 47.35914124 … 44.92928092 49.68651887
42.81065054]
均值:50.049
方差:24.939
标准差:4.994
这是我从第3课得到的(迟到了,正在赶进度)。谢谢。
干得好!
第4天得到这个
皮尔逊相关系数:0.888
干得好。
第五天
• 单样本 Z 检验
• TI 83
• 卡方检验
假设检验 – 其他方法
干得好。
你好 Jason,第四天
from pandas import read_csv
# 加载数据集
dataset = read_csv(‘pollution.csv’, header=0, index_col=0)
# 皮尔逊相关
ccc = dataset[[‘pollution’,’wnd_spd’,’press’,’temp’,’dew’]].corr(method=’pearson’)
print(‘ccc:’,ccc)
ccc: pollution wnd_spd press temp dew
pollution 1.000000 -0.234362 -0.045544 -0.090798 0.157585
wnd_spd -0.234362 1.000000 0.185380 -0.154902 -0.296720
press -0.045544 0.185380 1.000000 -0.827205 -0.778737
temp -0.090798 -0.154902 -0.827205 1.000000 0.824432
dew 0.157585 -0.296720 -0.778737 0.824432 1.000000
干得好!
你好 Jason,第五天
其他统计假设检验
Dean&Dixon Q-检验
Grubbs 检验(异常值)
F-检验(方差)
Wilcoxon 检验
Kolmogorov-Smirnov 检验
卡方检验
干得漂亮!
这本书非常好
非常有效
对于机器学习初学者
谢谢!
你好 Jason,第六天
效应量
两个变量之间的相关性(皮尔逊 r)
两个均值之间的差异(科恩 d)
干得好!
你好 Jason,第七天
非参数
中位数检验
偏度检验
Levene 检验
干得好!
你好先生,第一天
1. 我想深入学习机器学习,所以对我来说统计学很重要。
2. 在处理大数据时,我认为统计学在获得洞察力方面扮演着重要角色。
3. 此外,在数据科学和数据分析中,我认为统计学更为重要。
谢谢你。
谢谢!
你好先生,第二天
描述性统计 – 均值、中位数和众数
推断性统计 – 置信区间、T检验和线性回归分析
谢谢你
干得好!
我学习统计学的原因
可视化和探索性分析。我想选择最好的工具,以视觉方式向广大受众清晰地描述我的结论。
我想确保我的数据为我预期的模型做好了完美的准备。我需要归一化技术、特征工程和更多的统计方法!
我还想学习更多关于抽样技术和应用的知识,因为这有广阔的应用领域。
谢谢!
描述性
均值、相关性、标准差
推断性
T检验、Z分数、回归分析
干得好!
干得漂亮!
你好先生,第五天
1. F-检验
2. 方差分析
3. 卡方检验
谢谢你。
干得好。
皮尔逊相关系数
## 现实世界示例
import pandas as pd
from scipy.stats import pearsonr
import matplotlib.pyplot as plt
# 加载数据
covid_data = pd.read_csv(‘us-counties.csv’)
# 探索原始数据
print(covid_data.head())
print(“\n列数:”, len(covid_data.columns))
print(“行数:”, len(covid_data))
print(‘\n’, covid_data.describe())
# 计算皮尔逊相关系数
corr, p = pearsonr(covid_data[‘cases’], covid_data[‘deaths’])
print(“\n皮尔逊相关系数:”, corr)
# 绘制病例数 vs 死亡数
fig_covid, ax_covid = plt.subplots()
ax_covid.plot(covid_data[‘cases’], covid_data[‘deaths’], ‘r.’)
干得好!
你好先生,第六天
1. 皮尔逊相关系数
2. 科恩d值
谢谢你
干得好!
你好先生,第七天
1. 斯皮尔曼等级相关
2. 威尔科克森符号秩检验
3. 卡方检验
谢谢你。
干得好!
第五天,统计假设检验
皮尔逊相关系数
方差分析
D’Agostino’s K^2 检验
干得好!
对我上一条评论的编辑
从列表中移除皮尔逊相关系数 –
添加
卡方检验
第六天,估计统计
R^2,决定系数。在机器学习中作为性能指标很有用。R^2值接近于零表示模型性能差,R^2值接近于一表示性能好。
科恩 d。用于解释两个正态分布数据集均值的差异。它是以标准差的形式来表述的。
干得好!
第七天,非参数统计
分位数回归
Kruskal-Wallis 检验
Friedman 检验
干得漂亮!
嗨,Jason,
1. 统计学在数据准备中的应用
2. 统计学在模型评估中的应用
3. 统计学在模型选择中的应用
4. 统计学在模型展示中的应用
5. 统计学在预测中的应用
我想学习上述所有五种技术。实际上,我在美国的一位博士朋友正在从事一些计算生物学项目(例如癌症研究和COVID-19)。他有扎实的数学知识,因为他是物理学博士。但他在编程和机器学习方面不太熟练。所以他问我是否可以在数据分析和预测方面帮助他。
另一方面,我精通编程(C、C++、Java和基础Python)。我正在学习机器学习,我认为这需要良好的线性代数、多元微积分和统计学技能。我在1968-1971年的大学三年学位课程中学过这些数学。所以我需要复习这些数学技能,特别是与机器学习相关的部分。
期待得到您的指导。
Amal
干得好!
这听起来很棒。如果您有任何问题,我随时可以提供帮助。
第一课
我想学习统计学的原因
1. 我对机器学习技术和算法是新手,而它们要么完全借鉴于统计学,要么严重依赖于统计学。
2. 这肯定会帮助我温习我的统计学技能。
3. 它在其他领域也有应用,所以学习它很划算。
谢谢!
你好,Jason
第一课的任务
1. 更深入地理解机器学习技术的工作原理。
2. 获得更多知识。
3. 在数据分析流程中,理解何时使用哪种统计检验以及为什么使用。
干得好!
第二天:统计学导论
描述性统计:均值、方差、中位数
推断性统计:方差分析(ANOVA)、卡方检验和t检验。
干得好!
谢谢你,再次感谢你,为那些对这个领域感兴趣并想更深入学习的人们提供了这样一个有用的环境。
3个“我为什么对这门课程感兴趣”的理由
我是一名人工智能研究员,正在用真实世界的数据处理不同的项目。我们接收数据。
1-我们必须判断是应该使用回归还是分类?我们应该使用深度学习吗?
2- 我们的样本量足够吗?或者在我们的情况下,最小样本量是多少?
3-然后我们必须选择最好的模型。所以我需要比较不同的标准模型(例如回归模型)。应用cross_val_score并比较它们的MAE、MSE、RMSE。
然后会出现一些问题,比如如果我的样本量是12,那么我就不能使用‘r2’分数(因为12是一个小样本量)。在这种情况下,我想知道我是否/如何解决样本量问题?为了找到最好的模型,我应该考虑哪些细节和要点。
以及哪些统计数据能帮助我为我的问题选择最好的建模方法。
似乎不止3个理由;)
提前感谢
感谢分享!
亲爱的 Jason
我为什么对这次学习感兴趣。
1. 更深入地理解并简要了解机器学习统计检验。
2. 理解每种算法在预测分析中是如何工作的
3. 理解如何选择最佳模型并验证模型。
谢谢!
第一天
我总是在我的专业领域内处理数据
我想学习统计学是为了
1. 准备、验证和描述用于分析和建模的数据。
2. 检查结果的差异。
3. 建立预测模型和结果的可变性。
谢谢!
1. 为了理解,机器学习是基于估计和概率的。这鼓励我学习统计学。
2. 统计学让我对数据有更好的洞察力。
3. 机器学习解决世界上的实际问题,而实际问题是基于统计学的。
干得好!
第1课
1. 为了理解如何判断一个算法是否优于当前的黄金标准。
2. 帮助我学习使用机器学习方法并理解如何测试它们。
3. 编程练习!
干得好!
第2课
描述性统计
a) 均值
b) 标准差
c) 标准误差
推断性统计方法
a) Z分数
b) 逻辑回归
c) T检验
做得很好。
3个原因
1. 不学习这些事实,根本无法解释图表
2. 根据输入数据选择模型很困难
3. 在机器学习方面无法取得进展
干得好!
第1课
1. 为了找出为什么“谎言,该死的谎言和统计数据”是不准确的(https://en.wikipedia.org/wiki/Lies,_damned_lies,_and_statistics);
2. 尝试理解如何将精确性带入不精确性中;
3. 为了快乐。
太棒了!
#第2课
描述性统计
1. 集中趋势的度量 – 众数、均值、中位数
2. 图形方法,直方图,箱形图,散点图
3. 变异性和数据离散度的度量
推断性统计
1. 确定一种从样本推断总体的方法
2. 假设检验
3. 参数估计
干得好。
第3课
import numpy as np
np.random.seed(29)
sample = np.random.randint(100, size=1000)
mean = sum(sample)/len(sample)
var = sum((x-mean)**2 for x in sample)/len(sample)
print( f’均值={mean}, 方差={var}’)
print( f’np.mean={np.mean(sample)}, np.variance={np.var(sample)}’)
干得好!
#第04课
import pandas as pd
wine_df = pd.read_csv(‘winequality-white.csv’, sep=’;’)
wine_df.corr(method=’pearson’)
干得好!
#第5课
1. Shapiro-Wilk 检验 – 变量分布类型检验(高斯分布)
2. 卡方检验 – 变量关系检验(相关性)
3. Mann-Whitney U 检验 – 比较样本均值(非参数)
干得好!
#第6课
效应量是一种统计量,用于衡量两个变量之间关系强度,并在数值尺度上表示。
1. 皮尔逊 r 相关
2. 标准化均值差异
干得好!
#第7课
1. Anderson-Darling 检验
2. Cochran's Q 检验
干得漂亮!
数据准备
模型评估
模型选择
干得不错。
第3课
也用了葡萄酒数据集。代码如下...
from numpy import mean
import pandas as pd
df = pd.read_csv(“wine.csv”)
print(mean(df[“Alcohol”]))
干得好!
你好 Hason,
我读了你很多关于机器学习的文章。
它们在理解基本概念和实施机器学习实验方面都给了我很大帮助。
在这里我想列出5个非参数检验的名称
1. Wilcoxon 符号秩检验
2. Kruskal-Wallis H-检验
3. Ansari-Bradley 检验
4. Bartlett 检验
5. Mood 双样本检验
干得漂亮!
我喜欢在开始机器学习之前了解其概念。我认为这节课会帮助我实现这个目标。
谢谢。
你好 Jason,
感谢这门引人入胜的课程。
第一天
1- 人类天生的欲望之一是控制他/她的环境。没有统计学知识,这是不可能的。我认为理解自然最可靠的工具是统计学。
2- 统计学为我提供了一个途径,将我对生物学的理解转化为一个实用的模型。
3- 认识到数据收集和预测模型(例如全球变暖)的重要作用,我发现统计学是最重要的技能。
4- 我认为统计学和逻辑学是同类事物,逻辑推理是每个人在日常生活中都会使用的技巧。
干得好!
第1课
1. 为了理解机器学习
2. 为了提升数学知识
3. 为了成为更好的数据工程师
干得漂亮!
我需要统计学来获得以下结果
1. 理解我正在收集的数据
2. 我正在攻读博士学位,我必须建立一个模型并做一些预测
3. 成为一名数据科学家
干得好!
描述性统计学
1.通过直方图、条形图等可视化数据
2. 频率计算
3. 评估样本和总体均值
推断性
1. 假设检验
2. 分析样本
3. 参数估计
干得漂亮!
嗨,Jason,
我想学习统计学的三个原因
1. 它是理解机器学习最基本的需求。
2. 您的教学方式精确而独特,这激发了对机器学习的更多兴趣。
3. 我正在从数据库转向数据科学,我需要这个,因为这是基石。
谢谢你。
干得好!
第02课:统计学导论
1. 描述性统计方法
a) 分布
b) 集中趋势
c) 离散程度
2. 推断性统计方法
a) 假设检验
b) 置信区间
c) 均值比较
干得好!
第03课:高斯分布与描述性统计
from numpy.random import randn
from numpy import mean
data = randn(10000)
ave=sum(data)/len(data)
print(‘均值: %.10f’ % ave)
干得好。
第04课:变量间的相关性
方法1:在数据集上使用皮尔逊相关
from pandas import read_csv
from scipy.stats import pearsonr
# 加载数据集
url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv’
housingDf = read_csv(url, header=None)
housingDf.corr(method=’pearson’)
如果我们想从零开始构建
l=housingDf.shape[1]
Matrix = [[0 for x in range(l)] for y in range(l)]
for i in range(0,l)
for j in range(0,l)
data1=housingDf[i]
data2=housingDf[j]
corr, p = pearsonr(data1, data2)
Matrix[i][j] = “{:.6f}”.format(corr)
Matrix
干得好。
方差分析检验(ANOVA):用于检查两个或多个组的均值是否存在显著差异。
单样本t检验:将单个组的均值与给定均值进行比较。
配对T检验:检验来自同一总体的两个变量之间的差异
干得好!
第06课:估计统计学
在应用机器学习中计算效应量的两种方法
是
1. 关联性。两个样本共同变化的程度。
2. 差异性。两个样本不同的程度。
https://machinelearning.org.cn/estimation-statistics-for-machine-learning/
干得好。
第07课:非参数统计学
另外三种非参数统计方法是
1. Wilcoxon 符号秩检验。
2. Kruskal-Wallis H 检验。
3. Friedman 检验。
干得好!
我正在开始第一课,这是我个人想学习统计学的三个原因
1. 我想利用新技术和技巧重新学习旧技能 - 我在80、90年代的大学里用SAS学习过统计学,但已经忘得差不多了!
2. 我想了解如何建立一个好的机器学习模型,并深刻理解使其成为好模型的底层统计方法。
3. 我希望能解释建立一个好的机器学习模型所使用的方法论。
干得好!
第二课的回答
1. 描述性统计:集中趋势(均值、中位数、众数)
离散程度(标准差、极差、方差)
2. 推断性统计:T检验、回归分析(线性、逻辑)、方差分析(ANOVA)
干得漂亮!
第3课:今天学到了新东西——我通常使用.format方法,但从未使用过它的功能来四舍五入数值 :)
# 为随机数生成器设置种子
seed(10)
# 生成单变量观测值
data = 5 * randn(10000) + 50
print(data)
# 计算统计量
print('均值: %.3f' % mean(data))
print('方差: %.3f' % var(data))
print('标准差: %.3f' % std(data))
print('均值: {:.3f}'.format(mean(data)))
print('方差: {:.3f}'.format(var(data)))
print('标准差: {:.3f}'.format(std(data)))
干得好。
第01课
我个人想学习统计学的三个原因。
1. 学习统计学是培养数据驱动思维和提高分析能力的开始。
2. 探索数据质量,如数据完整性、数据准确性和变量的相关性。这在任何数据驱动项目投资之前都是重要的活动。
3. 统计学基础能让我们用数字、图表和可视化图表讲故事,在任何战略性业务讨论中都易于消化、理解和吸收。
回答得好,Pankaj。特别是第3点。好的统计数据确实有助于讲一个好故事。
第2课
三种可用于描述性统计的方法
1. 连续数据的集中趋势
2. 汇总表
3. 可视图表 - 条形图、箱形图、直方图。
三种可用于推断性统计的方法
1. 我想知道特征选择方法是否算,比如卡方检验(感谢你的博客)
2. 点估计
3. 区间估计
第1课
学习统计学的原因
1. 使用统计方法,我可以开始与数据对话,理解数据、趋势和数据中隐藏的(统计)特征。
2. 我将更有信心地学习和实施机器学习。
第2课
描述性统计中的一些方法/工具:分布(数据集中的模式和趋势)、集中趋势(中位数、众数、均值)、变异性(偏度、标准差、峰度、最小值/最大值等)。
推断性统计中用于分析从更大总体中随机抽取的样本数据的一些方法/工具:假设检验、置信区间、回归和相关性分析。
我想学习统计学,因为
1. 统计学是理解数据的基础,而理解数据是构建任何机器学习模型的关键。
2. 统计度量是评估机器学习模型性能所必需的。
3. 在我看来,机器学习模型利用了底层的数据分布,因此统计学基础对于从数据分析到模型开发再到最终评估的整个机器学习生命周期都是必不可少的。
主要三个原因是
1. 统计学是机器学习的数学基础之一。
2. 统计学对于用新数据进行预测是必要的。
3. 统计学关乎大数据。这正是我们现在正在进入的领域。
感谢您的兴趣和反馈,Mahmud!您对机器学习中哪些领域和应用更感兴趣?
此致,
感谢您的评论。我目前主要对将机器学习/深度学习应用于以下领域感兴趣:
– 金融
– 可再生能源
– 流行病
祝好!
非常欢迎,Mahmud!感谢您的反馈!
此致,
问题2的回答
描述性统计的三种方法:频率分布、集中趋势和
离散程度。
对于推断性统计方法,其中三种是假设检验、置信区间和回归分析。
感谢反馈,Mahmud!您正在从事什么类型的应用开发?我们提供了大量内容,可以帮助您快速启动您的机器学习项目。
此致,
第3天任务
代码
# 计算均值
from numpy.random import seed
from numpy.random import randn
from numpy import mean
# 为随机数生成器设置种子
seed(1)
# 生成单变量观测值
data=5*randn(10000)+50
# 计算均值
print('均值: %.3f' % mean(data))
输出
均值:50.049
感谢反馈,Mahmud!继续努力!
第4天任务
代码
# 计算相关系数
from numpy.random import seed
from numpy.random import randn
from scipy.stats import pearsonr
# 设定随机数生成器种子
seed(1)
# 准备数据
data1 = 40 * randn(2000) + 200
data2 = data1 + (20 * randn(2000) + 100)
# 计算皮尔逊相关性
corr, p = pearsonr(data1, data2)
# 显示相关性
print(‘Pearsons correlation: %.3f’ % corr)
输出
皮尔逊相关系数:0.896
感谢您的反馈,Mahmud!关于课程或者您从示例执行中得到的输出,您有任何问题吗?
此致,
第5天任务
– 双样本z检验:检验比例差异
-配对t检验
– 方差分析(ANOVA)
第6天任务
关联效应量的计算
皮尔逊相关系数(也称为皮尔逊 r)。该值衡量两个实值变量之间线性关联的程度。
差异效应量的计算
科恩 d,用于衡量来自两个高斯分布变量的均值之间的差异。
第七天
另外三种非参数统计方法是
– 肯德尔等级相关系数,通常称为肯德尔 τ 系数
– 斯皮尔曼等级相关系数或斯皮尔曼 ρ
– Siegel-Tukey 检验
你好 jason,
1. 我目前是一名数据分析师,但没有统计学背景。我注意到这种知识的缺乏影响了我进行准确数据分析的能力。
2. 我希望进入机器学习领域,并相信掌握基本的统计学知识是朝这个方向迈出的关键第一步。
3. 我热爱数学,并渴望在一个具有直接实践价值的领域获得知识。
感谢您的反馈,Dror!我们的材料旨在让您以最快的方式跟上进度,而无需 extensive 的理论先验知识。
嗨,Jason,
1- 我有一个关于电信欺诈检测的小项目,所以我想我可以从统计学开始。这样我就可以获得一些关于数据的信息,以便使用机器学习算法来检测欺诈。
2- 从统计学开始很重要,因为在应用机器学习算法之前,我必须学习如何应用最佳的统计方法,从数据中获得有意义的见解。(例如,在欺诈案件中检测异常值很重要,欺诈者通常有一些异常行为,通过这种方法,我可以从他们的行为中进行解读。)
3- 学习机器学习是我首要目标之一,以便应用于实际问题。为了解决这些问题,我必须学习如何做到这一点,然后将其整合到我们的数据中。
很棒的反馈,Merve!如果您对我们的内容/代码列表有任何具体问题,请告诉我们,我们很乐意为您提供帮助。
第1课
1. 有兴趣学习统计学。
2. 对于机器学习爱好者来说,统计学是必不可少的。
3. 统计学为讲述所考虑数据的故事提供了不同的视角。
很棒的反馈,Prasanna!祝你在机器学习的旅程中一切顺利!
第2课
对于描述性统计
1. 集中趋势的度量:均值、中位数和众数
2. 离散程度的度量:方差、标准差
3. 位置的度量:百分位数和四分位数等级
对于推断性统计
1. 相关性:皮尔逊相关、斯皮尔曼相关、卡方检验
2. 回归:线性回归、逻辑回归
3. 假设
感谢您的支持和反馈,Prasanna!继续努力!
关于第一课
– 我对统计学感兴趣,
– 我想更深入地了解这个领域,
– 我想在工程领域使用基于人工智能的模型。
谢谢!
感谢反馈,Vzs!
统计学是机器学习的基础,很棒的材料,James!!!!
非常欢迎,Mario!祝你在机器学习的旅程中取得巨大成功!
第1课
1. 我想学习统计学,这样我就能在机器学习中使用正确的数据分析技术。
2. 为了理解如何正确地可视化和解释数据。
3. 为了理解如何用我的最终模型做出正确的预测。
感谢反馈,Azibatasebh!祝你在机器学习的旅程中取得巨大成功!
学习数据分析技术似乎能让它变得更有趣。
我认为学习统计学将为数据分析打下良好的基础。
我认为学习理论将帮助我更好地理解它。
感谢您的反馈,yasu!我们非常感谢。
我希望能够信任我选择的解决方法。我认为有时一个模型看起来表现良好或者它的输出看起来合理,但实际上我们可能违反了一些使得模型不可信的潜在假设。我想成为一个值得信赖的数据科学家!
你好 Wesley...以下资源可能会让你感兴趣
https://arxiv.org/abs/2102.00902
第2课
描述性统计
1. 可视化给定总体或样本的分布
2. 使用一些汇总统计数据,如平均值,与需要做出业务决策的利益相关者分享发现。
推断性统计
1. 使用置信区间进行异常值检测
2. 线性回归,或者更好的是,分析线性回归模型的误差分布,以推断关系是否真的是线性的。
感谢您的反馈,Wesley!
你好,我刚开始学习这门课程!
第1课
我想学习统计学,主要有3个原因
– 提升研究实验结果的能力(总的来说,不仅限于机器学习和深度学习)
– 学习如何在机器学习和深度学习中具体运用统计学
– 全面提升我的统计能力(理解统计学,而不仅仅是复制和应用公式)
非常棒的反馈,Jorge!在学习过程中有任何问题请告诉我们。
第2课
描述性统计:均值和中位数(集中趋势)以及标准差
推断性统计:费雪检验和方差分析(假设检验)以及回归分析
第3课
´´´
import numpy as np
import matplotlib.pyplot as plt
# 生成随机值集合
np.random.seed(98)
values = np.random.randn(1000)
# 获取值的总和
total_value = 0
for value in values
total_value += value
# 获取集合中元素的数量
n_values = values.shape[0]
# 计算均值
mean = total_value / n_values
print(f’均值: {mean}’)
# 显示集合的直方图
plt.hist(values)
´´´
如果以上文本没有被格式化为代码,我深表歉意
第2课:-
描述性统计:均值、众数、极差、标准差、方差……
推断性统计:方差分析(ANOVA)、学生t检验、指数分布、样本检验……
g,请继续保持!如果你对本课程或我们的任何电子书有任何疑问,请告诉我们,我们会帮助解答。
https://machinelearning.org.cn/products/
你好,
第2课
描述性统计:最大值、最小值和平均值;
推断性统计:线性回归、随机森林和Z检验。
感谢你的反馈,River!请继续努力,有任何问题请随时告诉我们。
嗨 Jason
#第二天
描述性统计
-加权平均
-标准差
-正态分布
推断性统计
-置信区间
-中心极限定理
-假设检验
此致。
# 第3天
import numpy as np
sample = [1, 3, 5, 7, 9]
median = np.median(sample)
第1天
我是一名研究人员,我不得不依赖别人来为我做统计检验。
今年晚些时候我计划开始学习机器学习,而统计学是其基础。
我认为这对我职业生涯来说是一项很好的技能补充。
感谢你的反馈,Tasmia!请随时告诉我们你的进展!