
2025年已有5篇突破性的机器学习研究论文
图片作者 | ChatGPT
机器学习研究持续快速发展。2025 年的前几个月已经产生了多篇重要的论文,它们引入了新的功能并改进了现有技术。
在本文中,您将了解 2025 年迄今为止发表的五篇重要的机器学习研究论文。这些论文涵盖了不同的领域,包括计算机视觉、语言模型、数据评估和模型效率。
阅读本文后,您将了解
- 计算机现在如何准确地跟踪视频中的物体
- 语言模型在训练过程中内部发生了什么
- 研究人员如何衡量训练数据的价值
- 让 AI 语言系统更快的新方法
- 为什么某些 AI 架构的性能优于其他架构
让我们来探索这些创新。
1. SAM 2:图像和视频中的分割一切
论文: SAM 2:图像和视频中的分割一切,作者:Nikhila Ravi 等人(2025 年)
背景知识
图像分割是将图像划分为有意义的部分的过程。例如,识别照片中的哪些像素属于一个人,哪些属于一辆汽车,哪些属于背景。这项技术有助于计算机“看到”并理解图像。
2023 年,Meta AI 发布了第一个分割一切模型 (SAM),该模型在给定最少的指导(例如单击一个对象)的情况下可以识别静态图像中的对象。虽然对照片有效,但它无法处理视频。
突破
SAM 2 将这些能力扩展到了视频,允许计算机在视频序列中跟踪和识别移动的物体。这代表着一项重大进步,因为
- 它适用于视频:与之前仅限于静态图像的模型不同,SAM 2 可以处理动态内容
- 速度快得多: SAM 2 的速度比原始模型快 6 倍,即使是处理静态图像
- 需要更少的人工输入:该系统需要更少的点击或指令即可准确识别对象
- 它可实时工作:新颖的“流式内存”设计使其能够处理实时视频流
为什么这很重要
这项技术有许多实际用途
- 视频编辑:使在视频中选择和编辑特定对象更加容易
- 自动驾驶汽车:帮助车辆识别和跟踪行人、其他汽车以及道路特征
- 医学影像:协助医生分析内窥镜检查等手术过程中的视频
- 增强现实:使应用程序能够识别并与相机视图中的对象进行交互
SAM 2 可供研究人员和开发人员使用,这将有助于加速这些领域的进展。
2. LLM 微调的学习动力学
论文: LLM 微调的学习动力学,作者:Yi Ren 和 Danica Sutherland(2025 年)
背景知识
像 ChatGPT 这样的超大型语言模型 (LLM) 最初使用海量文本进行训练,以学习通用的语言模式。然后,它们会经过“微调”——根据特定示例进行附加训练,以使其在特定任务上表现更好或遵循指令。
虽然微调在许多方面改进了 LLM,但有时也会带来新的问题,例如编造虚假信息(“幻觉”)。到目前为止,研究人员还没有好的方法来确切了解这些模型在微调过程中内部发生了什么变化。
突破
本文开发了一种方法,通过跟踪训练过程中词语概率的变化来观察 LLM 在微调过程中的内部情况。这揭示了
- 幻觉发生的原因:有时微调会意外地教会模型在不同问题之间混合答案
- “挤压效应”:训练时间过长会导致即使是正确的答案也变得不太可能
- 如何解决这些问题:这些见解带来了更好的微调方法
为什么这很重要
这项研究就像获得了 AI 训练的 X 射线视野
- 更好的 AI 助手:开发人员可以创建更可靠、错误更少的 AI 系统
- 减少错误信息:减少幻觉意味着 AI 系统会编造更少的虚假事实
- 更有效的训练:了解何时停止训练可以节省时间和资源
- 透明度:能够解释为什么 AI 模型会以某些方式表现
通过将微调从一个神秘的过程转变为我们可以衡量和理解的事物,研究人员可以创建更值得信赖的 AI 系统。
3. 一次训练运行中的数据 Shapley
论文: 一次训练运行中的数据 Shapley,作者:Jiachen T. Wang 等人(2025 年)
背景知识
AI 模型通过示例学习——大量的示例。GPT-4 在万亿词上进行了训练,DALL-E 等图像生成器在数十亿图像上进行了学习。但并非所有训练示例的价值都相等。有些为 AI 提供了重要的经验教训,而有些则可能有害或根本无用。
到目前为止,找出哪些示例最有价值需要一种不切实际的方法:反复多次使用不同数据集子集训练 AI 并观察性能变化。对于大型 AI 模型来说,这太耗时了,根本无法进行。
突破
研究人员开发了“In-Run Data Shapley”方法,该方法在单次训练运行中衡量每个训练示例对模型的贡献。该技术
- 在正常训练期间工作:无需多次重新训练模型
- 几乎不增加额外计算时间:使其对于最大的模型也实用
- 提供准确的测量:正确识别哪些示例最有帮助或有害
为什么这很重要
这项突破有几个重要的应用
- 构建更好的数据集:研究人员可以识别和删除有害示例,这些示例会向 AI 系统传授不正确的信息
- 理解 AI 功能:我们可以追溯哪些类型的数据有助于 AI 系统的特定功能
- 版权分析:该技术可以显示版权内容对 AI 功能的影响程度
- 高效训练:通过专注于最有价值的示例,训练可以变得更快、更有效
这项技术就像显微镜一样,帮助我们精确了解数据如何塑造 AI 的行为,随着这些系统在社会中的作用越来越大,这一点也越来越重要。
4. 通过推测性解码加速级联
论文: 通过推测性解码加速级联,作者:Harikrishna Narasimhan 等人(2025 年)
背景知识
像 GPT-4 这样的大型语言模型 (LLM) 令人印象深刻,但运行速度慢且成本高昂。当您提出问题时,AI 会逐字生成响应,每个字都需要复杂的计算。模型越大,这个过程就越慢、越昂贵。
研究人员尝试了两种主要方法来加快速度
- 模型级联:使用更小、更快的模型来处理简单问题,只在必要时调用大型模型
- 推测性解码:让一个小模型猜测接下来会是什么词,然后让大模型验证这些猜测
这两种方法都有帮助,但各有局限性。
突破
本文将这两种方法结合为“推测性级联”,创造了一个更有效的解决方案
- 巧妙的合作:一个小型、快速的模型一次提出多个单词
- 高效验证:大型模型可以快速检查这些猜测是否与它会说的话相符
- 最佳决策:系统使用数学保证来决定何时信任小型模型而不是使用大型模型
为什么这很重要
这项创新使 AI 系统
- 更快:响应可以在更少的时间内生成
- 成本更低:该方法通过最大限度地减少大型模型的 M 的使用来降低计算成本
- 质量一样好:响应质量保持不变
这项进展可以通过减少运行这些系统所需的计算资源,使强大的 AI 更易于访问。对于运营 AI 服务的公司而言,这意味着为用户降低成本和更快的响应时间。
5. Transformers 学习低敏感性函数
论文: Transformers 学习低敏感性函数:研究和启示,作者:Bhavya Vasudeva 等人(2025 年)
背景知识
“Transformer”架构于 2017 年推出,已成为包括 ChatGPT、Gemini 和 Claude 在内的大多数现代 AI 系统的基础。这些基于 Transformer 的系统始终优于旧的 AI 方法,但研究人员尚未完全理解原因。
AI 系统需要“鲁棒”——这意味着即使输入略有变化,它们也应该能够正常工作。例如,一个好的 AI 应该能够理解您的提问,无论您是问“今天天气怎么样?”还是“今天的天气如何?”——这些微小的差异不应该让它感到困惑。
突破
这项研究发现,Transformer 自然地学习了作者所说的“低敏感性函数”——这意味着当输入发生微小变化时,它们的输出不会发生剧烈变化。该研究发现
- 天然稳定性:与其他人ai 架构相比,Transformer 对输入变化的敏感度自然较低
- 更好的泛化:这种低敏感性有助于它们在新数据上表现良好
- 更平坦的解决方案: Transformer 训练在数学损失曲线上找到“更平坦的谷”,使其更稳定
- 可衡量属性:研究人员开发了量化这种敏感性的方法
为什么这很重要
这一发现有助于解释 Transformer 如此成功的原因,并具有几个实际应用
- 构建更好的 AI:设计人员可以明确地在新的 AI 系统中鼓励低敏感性
- 更可靠的系统:了解此属性有助于创建即使输入略有变化也不会中断的 AI
- 改进测试:公司可以衡量敏感性来识别其 AI 的潜在弱点
- 理论理解:这为研究人员提供了新的数学工具来分析和改进 AI 架构
有时,理解事物为何有效与发明本身同等重要。本文提供了对 Transformer 成功原因的更深入理解。
总结
2025 年初的这五篇突破性论文展示了机器学习如何在不同领域不断进步
- SAM 2 使计算机不仅能够分割静态图像,还能分割视频中的物体并进行跟踪
- LLM 微调的学习动力学揭示了 AI 模型在训练过程中内部发生了什么
- 一次训练运行中的数据 Shapley 提供了一种衡量训练示例是帮助还是损害 AI 模型的方法
- 通过推测性解码加速级联 使 AI 语言系统响应速度更快,同时消耗的计算能力更少
- Transformers 学习低敏感性函数解释了 Transformer 架构为何对 AI 系统如此有效
总而言之,这些进步使 AI 系统更加强大、高效且易于理解。
暂无评论。