2024 年最具影响力的五篇机器学习论文

The 5 Most Influential Machine Learning Papers of 2024

5篇2024年最具影响力的机器学习论文
图片来源:编辑 | Midjourney

人工智能(AI)研究,尤其是在机器学习(ML)领域,继续受到全球越来越多的关注。为了让您了解AI和ML的科学热度,上传到开放获取预印本档案库ArXiv的作品数量自2023年底以来几乎翻了一番,到2024年底,该存储库中已有超过3万篇AI相关论文可供查阅。正如您可能猜到的那样,其中大部分都侧重于ML;毕竟,深度学习架构、生成式AI解决方案,以及如今几乎所有计算机视觉和自然语言处理系统,本质上都是从数据中学习以执行越来越令人惊叹的任务的ML系统。

本文列出了5篇在2024年很大程度上塑造了AI研究趋势的、最具影响力的ML论文。虽然提供的链接指向它们在ArXiv存储库中的版本,但这些论文已在顶级会议或期刊上发表或正在发表过程中。

1. Vision Transformers Need Registers (T. Darcet 等人)

这篇论文在2024年国际学习表征会议(ICLR 2024)上获得了一项杰出论文奖,尽管它最近几个月才在ArXiv上发表,但已迅速吸引了大量读者和引用。

作者们研究了Vision Transformer有时会在图像中不重要区域(如背景)生成高价值token的问题。他们通过向输入添加额外的token(称为寄存器token)来解决这个问题,从而提高了模型的性能,并在对象检测等视觉任务中取得了更好的结果。

2. 为什么更大的语言模型在上下文学习方面表现不同? (Z. Shi 等人)

这项被高度引用的研究于2024年春末发布,表明小型语言模型(SLM)比大型语言模型(LLM)更能抵抗噪声,并且“不容易分心”。这是因为它们更侧重于更狭窄的隐藏特征选择——这些特征是在Transformer架构的编码器和解码器层中学到的——而LLM则不那么侧重。该研究为更深入地理解和解释这些复杂模型的工作方式提供了新的视角。

3. Llama 3 模型家族 (A. Grattafiori 等人)

这篇规模庞大的研究拥有近600名合著者,自2024年7月首次发表以来,已获得数千次引用,观看量可能更多。尽管尚未公开发布,但该论文介绍了Meta新的405B参数多语言语言模型,其在多项任务上的表现与GPT-4相当。它通过组合方法集成了多模态能力,在图像、视频和语音识别等用例中表现具有竞争力。

The Llama 3 Herd of Models (A. Grattafiori et al.)

Llama 3 模型家族 (A. Grattafiori 等人)

4. Gemma:基于Gemini研究与技术的开放模型 (T. Mesnard 等人)

这是另一篇拥有众多合著者的论文,有100多名贡献者,于2024年春季发表。该论文介绍了谷歌最新的两款模型,分别拥有20亿和70亿参数。基于与Gemini模型类似的技术,Gemma模型在近70%的语言任务中表现优于同等规模的模型。该研究还提供了对这些大型LLM的安全性和责任方面的分析和思考。

Gemma: Open Models Based on Gemini Research and Technology (T. Mesnard et al.)

Gemma:基于Gemini研究与技术的开放模型 (T. Mesnard 等人)

5. 视觉自回归建模:通过下一尺度预测实现可扩展图像生成 (K. Tian 等人)

本次列表怎能少了在2024年最负盛名的全球会议之一上获奖的最新论文:NeurIPS。《这篇论文介绍了视觉自回归建模(VAR)》,这是一种新的图像生成方法,它分阶段预测图像,从粗糙到精细分辨率,从而实现了高效训练和增强的性能。VAR在图像修复和编辑等视觉任务中优于最先进的扩散Transformer,同时展现出与LLM相似的可扩展性。

暂无评论。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。