重要的机器学习

在学习“引导机器学习”时,Louis 提到了我必须去读的一篇论文。该论文的标题是 《有意义的机器学习》 (PDF),作者是 JPL 的 Kiri Wagstaff,发表于 2012 年。

machine learning that matters

重要的机器学习

Kiri 的论点是,机器学习研究界已经迷失了方向。她认为许多机器学习都是为了机器学习而做的。她指出了三个主要问题:

  • 过度关注基准数据:关注 UCI 存储库中的数据集,但很少能在所处理的领域中产生影响。她指出了实验可复现性标准的缺乏,这使得标准数据集的使用变得无效,以及偏向回归和分类问题。她评论说,使用 UCI 存储库比使用合成数据更糟,因为我们甚至无法控制数据的创建方式。
  • 过度关注抽象指标:高度关注算法竞赛或比拼,以及使用 RMSE 和 F-measure 等通用指标,这些指标在领域中没有直接含义。
  • 缺乏后续跟进:在 Weka 中下载数据集并运行算法非常容易。解释结果并将其与领域联系起来非常困难,但要产生影响就需要这样做。

问题的关键在于,她将机器学习描述为三种活动,而“机器学习贡献”则侧重于算法选择和实验,忽略了问题定义和结果解释。

心态的转变

Kiri 建议研究界需要改变制定、攻击和评估机器学习研究项目的方式。她就三个需要解决的领域提出了建议:

  • 有意义的评估方法:衡量机器学习系统在领域中的直接影响。例如,节省的美元、挽救的生命、节省的时间或减少的精力。选择一个直接影响指标会对实验设计和数据选择产生连锁效应。
  • 外部世界的参与:让领域专家参与定义问题和数据,更重要的是利用他们来解释结果在领域中的重要性。这是为了停止解决意义不大的问题(如鸢尾花分类),而是开发足够可靠和有用的系统以在实践中得到采纳。
  • 着眼于最终目标:根据其影响力来选择研究问题。考虑问题领域的现状,并将结果描述为相对于该现状的改进程度。吸引社区并鼓励采纳。

公开挑战

Kiri 发起了挑战,提出了 6 个示例性研究项目,机器学习可以在其中发挥作用。

  1. 一项依赖于 ML 分析结果的法律或司法判决。
  2. 通过 ML 系统改进的决策节省 1 亿美元。
  3. 通过 ML 系统提供的高质量翻译避免了国家之间的冲突。
  4. 通过 ML 防御将网络安全入侵减少 50%。
  5. 通过 ML 系统推荐的诊断或干预挽救了人类生命。
  6. 通过 ML 系统将一个国家的人类发展指数 (HDI) 提高了 10%。

她特意将这些问题开放,以避免暗示单一问题或技术能力。真正的挑战是困难的。这些示例旨在激发灵感,而不是详尽且有优先级的待办问题列表。

最后,Kiri 评论了在有效解决重要研究问题过程中可能存在的障碍。

  • 术语:过度使用机器学习术语,这在领域内是很有用的简写,但在领域外基本无法理解。面向更广泛的受众需要使用更通俗的语言。
  • 风险:当机器学习系统做出有影响力的决策时,如果出现错误,谁应负责?谁负责维护系统?(我忍不住觉得土木工程和安全关键制造行业已经解决了类似的问题)
  • 复杂性:机器学习方法仍然不是“即插即用”的,并且理解和使用这些方法仍然需要博士学位。我们需要更好的工具。(我认为商品化的机器学习发展非常迅速)。

我认为这是一篇很好的论文,可以激励年轻研究人员不要陷入算法竞赛,而是转向更具影响力的工作。这让我想起了 O’reilly 的号召:“从事重要的事情”。不过,我希望有更多具体的例子,也许不那么理想化,而更侧重于商业,例如 IBM 的 WatsonSiri大规模图像分类

我也忍不住觉得,对于初学者来说,有些类别的项目可以取得进展并获得直接的个人益处。例如,对自己的照片进行分类、整理文档或在股票市场上交易。

对“有意义的机器学习”的一条回复

  1. Jesús Martínez 2018年4月10日 上午12:30 #

    我同意您的看法,这篇论文有些过于理想化了。尽管我百分之百支持利用机器学习来研究和开发推动我们社会发展的解决方案,但我认为机器学习也可以在商业环境中产生有意义的影响。

    感谢分享。

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。