存档 | 统计学

Controlled Experiments in Machine Learning

机器学习中的受控实验

系统性实验是应用机器学习的关键部分。鉴于机器学习方法的复杂性,它们难以进行形式化分析。因此,我们必须通过实证研究来了解算法在我们特定问题上的行为。我们通过受控实验来实现这一点。在本教程中,您将发现受控实验扮演的重要角色 […]

继续阅读
Statistical Significance Tests for Comparing Machine Learning Algorithms

用于比较机器学习算法的统计显著性检验

比较机器学习方法和选择最终模型是在应用机器学习中一项常见的操作。模型通常使用重采样方法(如 k 折交叉验证)进行评估,从中计算并直接比较平均技能得分。尽管简单,但这种方法可能具有误导性,因为很难知道平均得分之间的差异 […]

继续阅读
A Gentle Introduction to the Chi-Squared Test for Machine Learning

机器学习卡方检验简明入门

在应用机器学习中一个常见的问题是确定输入特征是否与要预测的结果相关。这就是特征选择问题。在分类问题中,当输入变量也为分类变量时,我们可以使用统计检验来确定输出变量是否与 […] 相互依赖或独立。

继续阅读
A Gentle Introduction to Statistical Sampling and Resampling

统计抽样与重抽样入门

数据是应用机器学习的货币。因此,有效收集和使用数据非常重要。数据抽样是指从领域中选择观测值以估计总体参数的统计方法。而数据重采样是指有效利用已收集数据集来改进 […] 的方法。

继续阅读
A Gentle Introduction to Critical Values for Statistical Hypothesis Testing

如何使用 Python 计算统计假设检验的临界值

在解释统计假设检验结果时,通常(如果不是标准的话)使用 p 值。并非所有统计检验的实现都会返回 p 值。在某些情况下,您必须使用替代方法,例如临界值。此外,在估计来自总体的观测值的预期区间时,例如在 […] 中,也会使用临界值。

继续阅读
Line Plot of the Chi-Squared Probability Density Function

统计数据分布入门

数据样本会形成一个分布,其中最广为人知的分布是高斯分布,通常称为正态分布。该分布提供了一个参数化的数学函数,可用于计算样本空间中任何单个观测值的概率。该分布描述了分组或密度 […]

继续阅读
Example of a Box and Whisker Plot

Python 数据可视化方法简介

有时,数据只有以图表和图的形式呈现时才有意义。能够快速地为自己和他人可视化数据样本,是在应用统计学和应用机器学习中的一项重要技能。在本教程中,您将发现五种 […]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。