系统性实验是应用机器学习的关键部分。鉴于机器学习方法的复杂性,它们难以进行形式化分析。因此,我们必须通过实证研究来了解算法在我们特定问题上的行为。我们通过受控实验来实现这一点。在本教程中,您将发现受控实验扮演的重要角色 […]

系统性实验是应用机器学习的关键部分。鉴于机器学习方法的复杂性,它们难以进行形式化分析。因此,我们必须通过实证研究来了解算法在我们特定问题上的行为。我们通过受控实验来实现这一点。在本教程中,您将发现受控实验扮演的重要角色 […]
比较机器学习方法和选择最终模型是在应用机器学习中一项常见的操作。模型通常使用重采样方法(如 k 折交叉验证)进行评估,从中计算并直接比较平均技能得分。尽管简单,但这种方法可能具有误导性,因为很难知道平均得分之间的差异 […]
在应用机器学习中一个常见的问题是确定输入特征是否与要预测的结果相关。这就是特征选择问题。在分类问题中,当输入变量也为分类变量时,我们可以使用统计检验来确定输出变量是否与 […] 相互依赖或独立。
数据摘要提供了一种方便的方法,仅用几个统计值就可以描述数据样本中的所有值。均值和标准差用于摘要具有高斯分布的数据,但如果您的数据样本具有非高斯分布,它们可能没有意义,甚至可能具有误导性。在 […]
数据是应用机器学习的货币。因此,有效收集和使用数据非常重要。数据抽样是指从领域中选择观测值以估计总体参数的统计方法。而数据重采样是指有效利用已收集数据集来改进 […] 的方法。
在解释统计假设检验结果时,通常(如果不是标准的话)使用 p 值。并非所有统计检验的实现都会返回 p 值。在某些情况下,您必须使用替代方法,例如临界值。此外,在估计来自总体的观测值的预期区间时,例如在 […] 中,也会使用临界值。
数据样本会形成一个分布,其中最广为人知的分布是高斯分布,通常称为正态分布。该分布提供了一个参数化的数学函数,可用于计算样本空间中任何单个观测值的概率。该分布描述了分组或密度 […]
有时,数据只有以图表和图的形式呈现时才有意义。能够快速地为自己和他人可视化数据样本,是在应用统计学和应用机器学习中的一项重要技能。在本教程中,您将发现五种 […]
统计假设检验可用于指示两个样本之间的差异是由于随机机会,但不能说明差异的大小。一组被称为“新统计学”的方法正在被越来越多地使用,以替代或补充 p 值,以量化 […] 的幅度。
拥有数据的上限和下限可能很有用。这些边界可用于帮助识别异常值并设置预期。来自总体的观测值的边界称为容差区间。容差区间来自估计统计学领域。容差区间是 […]