从机器学习的角度来看,预测是一个单一的点,它掩盖了该预测的不确定性。预测区间提供了一种量化和传达预测不确定性的方法。它们与置信区间不同,置信区间旨在量化总体参数(如均值或标准差)的不确定性 […]

从机器学习的角度来看,预测是一个单一的点,它掩盖了该预测的不确定性。预测区间提供了一种量化和传达预测不确定性的方法。它们与置信区间不同,置信区间旨在量化总体参数(如均值或标准差)的不确定性 […]
机器学习的很大一部分涉及估计机器学习算法在未见过的数据上的性能。置信区间是量化估计不确定性的一种方法。它们可用于为来自独立观测样本估计出的总体参数(如均值)添加边界或置信度 […]
Bootstrap 方法是一种重采样技术,通过有放回地对数据集进行抽样来估计总体统计量。它可以用来估计诸如均值或标准差之类的汇总统计量。在应用机器学习中,它用于估计机器学习模型在对数据进行预测时的技能 […]
交叉验证是一种用于估计机器学习模型技能的统计方法。在应用机器学习中,它常用于比较和选择适用于给定预测建模问题的模型,因为它易于理解、易于实现,并且其技能估计的偏差通常较低 […]
统计学领域有很大一部分涉及假设高斯分布的方法:即熟悉的钟形曲线。如果你的数据具有高斯分布,参数化方法就会非常强大且易于理解。这会激励你尽可能地使用它们。即使你的数据不具有高斯分布 […]
参数统计方法通常指的是那些假设数据样本具有高斯分布的方法。在应用机器学习中,我们需要比较数据样本,特别是样本的均值。也许是为了查看一种技术在一个或多个数据集上的性能是否优于另一种。为了量化这个问题并解释结果, […]
在应用机器学习中,我们经常需要确定两个数据样本是否具有相同或不同的分布。我们可以使用统计显著性检验来回答这个问题,这些检验可以量化样本具有相同分布的可能性。如果数据不具有常见的高斯分布,那么我们必须求助于非参数 […]
数据必须经过解释才能增加意义。我们可以通过假设一种特定的结果结构来解释数据,并使用统计方法来确认或拒绝该假设。该假设称为假设,用于此目的的统计检验称为统计假设检验。每当我们想做出声称 […]
在处理样本数据时,一个重要的决策点是是使用参数统计方法还是非参数统计方法。参数统计方法假设数据具有已知且特定的分布,通常是高斯分布。如果数据样本不是高斯分布,那么参数统计检验的假设就会被违反,需要使用非参数 […]
统计学和统计方法领域有很大一部分是针对具有已知分布的数据。我们已经知道或可以轻松识别其分布的数据样本称为参数数据。在常见情况下,参数一词通常用于指从高斯分布中抽取的数据 […]