机器学习中的受控实验

系统性实验是应用机器学习的关键部分。

鉴于机器学习方法的复杂性,它们很难进行形式化分析。因此,我们必须通过经验来了解算法在我们具体问题上的行为。我们通过受控实验来做到这一点。

在本教程中,您将发现受控实验在应用机器学习中所起的关键作用。

完成本教程后,您将了解:

  • 通过受控实验进行系统性发现的需求。
  • 为了控制方差来源而重复进行实验的需求。
  • 在机器学习中进行的实验示例及其代表的挑战和机遇。

开始您的项目,阅读我的新书《机器学习统计学》,其中包含分步教程和所有示例的Python源代码文件。

让我们开始吧。

Controlled Experiments in Machine Learning

机器学习中的受控实验
照片由 Mike Baird 拍摄,部分权利保留。

教程概述

本教程分为3个部分;它们是

  1. 系统性实验
  2. 控制方差
  3. 机器学习中的实验

需要机器学习统计学方面的帮助吗?

立即参加我为期7天的免费电子邮件速成课程(附示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

系统性实验

在应用机器学习中,您必须成为一名科学家并进行系统性实验。

您关心的问题的答案,例如哪种算法在您的数据上效果最好,或者使用哪些输入特征,只能通过实验试验的结果来找到。

这主要是因为机器学习方法很复杂,并且难以进行形式化分析。

[…] 许多学习算法对于形式化分析来说过于复杂,至少在大多数理论处理所假定的通用性水平上是这样。因此,对机器学习算法行为的实证研究必须保持中心地位。

机器学习的实验研究,1991。

在统计学中,实验类型的选择称为实验设计,有许多类型的实验可供选择。例如,您可能听说过随机双盲安慰剂对照实验是评估医疗治疗有效性的黄金标准。

应用机器学习的特殊之处在于,我们对实验拥有完全的控制权,并且我们可以在计算机上运行任意数量的试验。由于运行实验的便利性,运行正确的实验类型至关重要。

在自然科学中,我们永远无法控制所有可能的变量。……作为人造科学,机器学习通常可以避免此类复杂性。

机器学习作为一门实验科学,社论,1998。

我们希望进行的实验类型称为受控实验

这些实验是指所有已知的自变量都保持恒定,并一次一个地进行修改,以确定它们对因变量的影响。结果与基线或“对照”进行比较。这可能是基线方法(如持久性或零规则算法)或方法的默认配置的结果。

按照通常的定义,实验包括系统地改变一个或多个自变量并检查它们对某些因变量的影响。因此,机器学习实验需要的不仅仅是单次学习运行;它需要一系列在不同条件下进行的运行。在每种情况下,都必须测量系统行为的某个方面,以便在不同条件下进行比较。

机器学习作为一门实验科学,社论,1998。

控制方差

在许多方面,机器学习方法的实验比评估医疗治疗更像模拟研究,例如物理学中的研究。

因此,单次实验的结果是概率性的,会受到方差的影响。

在我们的受控实验中,我们主要想了解两种方差;它们是

  • 数据方差,例如用于训练学习算法的数据以及用于评估其技能的数据。
  • 模型方差,例如学习算法中使用的随机性,例如神经网络中的随机初始权重、装袋法中的分割点选择、随机梯度下降中的数据随机排序等。

鉴于这些方差来源,单次受控实验的运行或试验结果可能会产生误导。

实验必须控制这些方差来源。这是通过多次重复实验试验来获得的,以引出方差范围,从而使我们能够报告预期结果和预期结果的方差,例如均值和置信区间。

在模拟研究中,例如蒙特卡洛方法,实验的重复称为方差缩减

机器学习中的实验

实验是应用机器学习的关键部分。

这既是初学者必须学习严谨性的挑战,也是发现和贡献的激动人心的机会。

让我们通过一些您可能需要进行的受控实验类型来具体说明

  • 特征选择实验。在确定哪些数据特征(输入变量)与模型最相关时,自变量可以是输入特征,因变量可以是模型在未见过的数据上的估计技能。
  • 模型调优实验。在调整机器学习模型时,自变量可以是学习算法的超参数,因变量可以是模型在未见过的数据上的估计技能。
  • 模型比较实验。在比较机器学习模型的性能时,自变量可以是具有特定配置的学习算法本身,因变量是模型在未见过的数据上的估计技能。

使应用机器学习的实验重点如此令人兴奋的原因有两方面

  • 发现。您可以发现最适合您特定问题和数据的方法。这是一个挑战,也是一个机会。
  • 贡献。您可以为该领域做出更广泛的发现,而无需任何专业知识,只需严谨和系统的实验。

利用现成的工具和严谨的实验方法,您可以做出发现和贡献。

总之,机器学习处于一个有利的地位,使得系统性实验既容易又有利可图。……尽管实验研究不是理解的唯一途径,但我们认为它们是机器学习快速科学进步最有希望的途径之一,我们鼓励其他研究人员加入我们领域向实验科学的演变。

机器学习的实验研究,1991。

进一步阅读

如果您想深入了解,本节提供了更多关于该主题的资源。

书籍

论文

文章

总结

在本教程中,您了解了受控实验在应用机器学习中所起的关键作用。

具体来说,你学到了:

  • 通过受控实验进行系统性发现的需求。
  • 为了控制方差来源而重复进行实验的需求。
  • 在机器学习中进行的实验示例及其代表的挑战和机遇。

你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。

掌握机器学习统计学!

Statistical Methods for Machine Learning

培养对统计学的实用理解

...通过在 python 中编写代码

在我的新电子书中探索如何实现
机器学习的统计方法

它提供关于以下主题的自学教程
假设检验、相关性、非参数统计、重采样,以及更多...

探索如何将数据转化为知识

跳过学术理论。只看结果。

查看内容

对《机器学习中的受控实验》的 4 条回复

  1. Adrien Pavao 2019年12月12日 16:32 #

    非常有趣。感谢您分享关于这个主题的参考文献。

  2. Jesuino Vieira Filho 2022年4月19日 04:55 #

    当我们运行连续实验来测试我们机器学习系统各个步骤的有效性时,是否通常会放弃结果较差的替代方案以供进一步比较?

    例如,假设我有两个步骤。第一个有三个选项,第二个有五个选项。

    – 步骤 1:S1O1、S1O2、S1O3
    – 步骤 2:S2O1、S2O2、S2O3、S2O4、S2O5

    假设在执行第二个步骤时,S1O2 是步骤 1 的最佳选项,我可以忽略 S1O1 和 S1O3,还是应该测试所有组合?

发表评论

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。