随机性的使用是机器学习算法配置和评估的重要组成部分。从人工神经网络中权重的随机初始化,到将数据随机划分为训练集和测试集,再到随机梯度下降中训练数据集的随机洗牌,生成随机数以及 […]
随机性的使用是机器学习算法配置和评估的重要组成部分。从人工神经网络中权重的随机初始化,到将数据随机划分为训练集和测试集,再到随机梯度下降中训练数据集的随机洗牌,生成随机数以及 […]
Tom Mitchell 1997 年的经典著作《机器学习》提供了一章专门介绍用于评估机器学习模型的统计方法。统计学提供了一套重要的工具,用于机器学习项目的每个步骤。如果没有统计方法,从业者无法有效地评估机器学习模型的技能。不幸的是,统计学是 […]
机器学习从业者传统上注重算法,并务实地关注结果和模型技能,而不太关注模型可解释性等其他问题。统计学家在应用统计学和统计学习的名义下,处理着非常相似的建模问题。他们来自数学背景,更侧重于 […]
统计学是一系列工具,您可以用来回答有关数据的重要问题。您可以使用描述性统计方法将原始观测值转化为易于理解和共享的信息。您可以使用推断性统计方法从少量数据推断到整个领域。在这篇文章中,[…]
统计学和机器学习是两个非常密切相关的领域。事实上,两者之间的界限有时会非常模糊。尽管如此,仍有一些方法显然属于统计学领域,这些方法在处理机器学习项目时不仅有用,而且是无价的。公平地说[…]
系统性实验是应用机器学习的关键部分。鉴于机器学习方法的复杂性,它们抵制形式化的分析方法。因此,我们必须通过经验来了解算法在我们特定问题上的行为。我们通过受控实验来实现这一点。在本教程中,您将发现受控实验扮演的重要角色 […]
在应用机器学习中,比较机器学习方法和选择最终模型是一项常见操作。模型通常使用重采样方法(如 k 折交叉验证)进行评估,从这些方法中计算出平均技能得分并直接进行比较。虽然简单,但这种方法可能会产生误导,因为很难知道平均值之间的差异 […]
在应用机器学习中,一个常见的问题是确定输入特征是否与要预测的结果相关。这就是特征选择问题。在分类问题中,当输入变量也是分类变量时,我们可以使用统计检验来确定输出变量是否与 […]
数据汇总提供了一种便捷的方式,仅用几个统计值来描述数据样本中的所有值。均值和标准差用于汇总具有高斯分布的数据,但如果您的数据样本具有非高斯分布,则可能没有意义,甚至可能产生误导。在 […]
数据是应用机器学习的货币。因此,有效地收集和使用数据非常重要。数据采样是指用于从领域中选择观测值以估计总体参数的统计方法。而数据重采样是指经济地使用已收集的数据集来改进 […]