在应用机器学习项目的每个步骤中都会使用统计方法。这意味着对统计学关键发现的基础知识以及相关统计方法的实际知识有扎实的掌握非常重要。不幸的是,许多计算机科学和软件工程学位课程中都没有涵盖统计学。甚至 […]

在应用机器学习项目的每个步骤中都会使用统计方法。这意味着对统计学关键发现的基础知识以及相关统计方法的实际知识有扎实的掌握非常重要。不幸的是,许多计算机科学和软件工程学位课程中都没有涵盖统计学。甚至 […]
中心极限定理是统计学和机器学习中经常被引用但又常被误解的支柱。它经常与大数定律混淆。虽然该定理对初学者来说可能显得晦涩难懂,但它对我们如何以及为何可以推断机器学习模型的技能有着重要的影响,例如 […]
我们有一种直觉,认为更多的观察更好。这与我们收集更多数据,我们的数据样本将更能代表问题领域这一想法背后的直觉相同。统计学和概率论中有一个定理支持这种直觉,该定理是这两者 […]
数据样本是从一个更广泛的总体中提取的快照,该总体包含了对某个领域可能进行的或由某个过程生成的所有观察。有趣的是,许多观察结果都符合一个常见的模式或分布,称为正态分布,或者更正式地称为高斯分布。关于高斯分布,人们有很多了解,并且 […]
有没有看过你的数据,觉得有什么东西缺失了,或者它在向你隐藏什么?这是一份深入指南,用于揭示数据集中变量之间隐藏的联系和未知关系。你为什么要关心?像线性回归这样的机器学习算法不喜欢惊喜。发现和量化 […]
随机性是机器学习的重要组成部分。随机性被用作准备数据和学习映射输入数据到输出数据以进行预测的学习算法的工具或特征。为了理解统计方法在机器学习中的必要性,您必须理解随机性的来源 […]
同时展示机器学习模型的预期技能以及该模型的置信区间非常重要。置信区间提供模型技能的范围以及当对新数据进行预测时模型技能落在该范围内的可能性。例如,95% 的可能性 […]
一旦您为分类问题选择了机器学习算法,您就需要将模型的性能报告给利益相关者。这很重要,这样您就可以为模型在新数据上的表现设定预期。一个常见的错误是仅报告模型的分类准确率。在这篇文章中,您 […]
在比较两种不同的机器学习算法或比较同一算法的不同配置时,收集一组结果是很好的做法。将每次实验运行重复 30 次或更多次,您可以获得一个结果集,从中可以根据大多数 […]
许多随机机器学习算法存在一个问题,即在相同数据上运行相同的算法会产生不同的结果。这意味着在进行实验以配置随机算法或比较算法时,您必须收集多个结果,并使用平均性能来总结模型的技能。这 […]