系统性实验是应用机器学习的关键部分。鉴于机器学习方法的复杂性,它们难以进行正式的分析。因此,我们必须通过经验来了解算法在我们特定问题上的行为。我们通过控制实验来做到这一点。在本教程中,您将了解控制实验所起的重要作用 […]

系统性实验是应用机器学习的关键部分。鉴于机器学习方法的复杂性,它们难以进行正式的分析。因此,我们必须通过经验来了解算法在我们特定问题上的行为。我们通过控制实验来做到这一点。在本教程中,您将了解控制实验所起的重要作用 […]
比较机器学习方法和选择最终模型是在应用机器学习中常见的操作。模型通常使用重采样方法(例如 k 折交叉验证)进行评估,通过这种方法计算出平均技能分数并直接进行比较。虽然简单,但这种方法可能具有误导性,因为很难知道平均值之间的差异 […]
应用机器学习中的一个常见问题是确定输入特征是否与要预测的结果相关。这就是特征选择问题。在分类问题中,当输入变量也是分类变量时,我们可以使用统计检验来确定输出变量是否与 […]
数据摘要提供了一种便捷的方式,仅用几个统计值来描述数据样本中的所有值。均值和标准差用于总结具有高斯分布的数据,但如果数据样本具有非高斯分布,它们可能没有意义,甚至可能具有误导性。在 […]
数据是应用机器学习的货币。因此,有效收集和使用数据至关重要。数据采样是指从领域中选择观测值的统计方法,目的是估计总体参数。而数据重采样是指经济地使用收集到的数据集来改进 […]
通常(如果不是标准的话)我们会通过 p 值来解释统计假设检验的结果。并非所有统计检验的实现都会返回 p 值。在某些情况下,您必须使用替代方法,例如临界值。此外,在估计总体观测值的预期区间时也会用到临界值,例如在 […]
数据样本会形成一个分布,迄今为止最知名的分布是高斯分布,通常称为正态分布。该分布提供了一个参数化的数学函数,可以用来计算样本空间中任何单个观测值的概率。该分布描述了分组或密度 […]
有时,如果不以图表和图形等可视化形式查看数据,数据就无法理解。能够快速地为自己和他人可视化数据样本,是在应用统计学和应用机器学习中都非常重要的技能。在本教程中,您将发现五种 […]
统计假设检验可以用来表明两个样本之间的差异是由于随机机会,但不能说明差异的大小。一系列称为“新统计”的方法正在被越来越多地用于替代或补充 p 值,以量化 […]
为数据设置上限和下限可能很有用。这些界限可用于帮助识别异常值并设定预期。对总体观测值的界限称为容差区间。容差区间来自估计统计学领域。容差区间是 […]