在应用机器学习项目的每个步骤中都会用到统计方法。这意味着需要对统计学的关键发现和相关统计方法有扎实的掌握。不幸的是,统计学在许多计算机科学和软件工程学位课程中都没有涵盖。甚至……

在应用机器学习项目的每个步骤中都会用到统计方法。这意味着需要对统计学的关键发现和相关统计方法有扎实的掌握。不幸的是,统计学在许多计算机科学和软件工程学位课程中都没有涵盖。甚至……
中心极限定理是统计学和机器学习中经常被引用但又被误解的基石。它经常与大数定律混淆。虽然该定理对初学者来说可能显得有些深奥,但它对我们如何以及为何能够对机器学习模型的性能做出推断具有重要意义,例如……
我们直观地认为更多的观察值更好。这与如果我们收集更多数据,我们的数据样本将更能代表问题领域라는想法是一致的。统计学和概率论中有一个定理支持这种直觉,它是这两门学科的基石……
数据样本是来自一个更广泛的总体(可以对一个领域进行的所有可能观察或由一个过程生成的所有可能观察)的快照。有趣的是,许多观察值都符合一个常见的模式或分布,称为正态分布,或更正式地称为高斯分布。关于高斯分布,我们知道很多,并且……
是否曾看过你的数据并觉得缺少什么或者它隐藏着什么?这是一篇关于揭示数据集变量之间隐藏连接和未知关系的深度指南。你为什么应该关心?像线性回归这样的机器学习算法不擅长处理意外。发现和量化……至关重要。
在建模时,清理数据样本以确保观察值最能代表问题很重要。有时数据集可能包含超出预期范围且与其他数据不同的极端值。这些被称为异常值,机器学习建模和模型性能通常会……
随机性是机器学习的重要组成部分。随机性被用作准备数据和学习映射输入数据到输出数据以进行预测的算法的工具或特征。为了理解机器学习中统计方法的必要性,你必须了解随机性的来源……
在为预测建模问题开发了机器学习模型之后,你如何知道模型的性能是否良好?这是初学者经常问我的一个常见问题。作为初学者,你经常寻求这个问题的答案,例如,你希望有人告诉你一个……
如果模型测试结果比训练结果差该怎么办。评估机器学习模型的程序是使用训练数据进行拟合和评估,然后验证模型在保留的测试数据集上是否具有良好的性能。通常,在评估模型在训练……
你使用的数据以及如何使用数据,可能会决定你的预测建模项目的成功。数据和问题的框架可能是你项目中最大的杠杆点。选择错误的数据或错误的问题框架可能导致模型性能不佳……