
零样本和少样本推理 LLM。
作者 | Ideogram 提供图片
随着大型语言模型已成为许多现实世界应用程序的重要组成部分,了解它们如何进行推理以及从提示中学习至关重要。从回答问题到解决复杂问题,我们构建输入的方式会对输出的质量产生重大影响。
本文简要介绍了推理语言模型,并分析了它们用于解决复杂任务的两种常见学习方法:零样本学习和少样本学习,概述了每种学习方法的主要优点、局限性和关键区别。
什么是推理 LLM?
大型语言模型 (LLM) 是海量的人工智能 (AI) 解决方案,能够理解复杂的文本输入并生成对各种自然语言问题或请求的响应,例如提供答案、翻译文本、总结文本等。
但是,并非所有 LLM 在生成对用户提示的自然语言响应的过程中的行为都相似吗?并非如此:具有推理能力的 LLM 专门擅长将复杂的用户查询分解为更简单的子问题,并在生成连贯且准确的响应之前对其进行逻辑求解。这种增强的内部过程能够比更侧重于表面级下一个词预测的标准 LLM 实现更深刻的理解和更结构化的答案。
从过程的角度来看,基于 Transformer 架构的具有推理能力和传统 LLM 之间的差异如下所示。

经典 LLM 和推理 LLM 之间的区别
具有推理能力的 LLM 的一些关键特征包括其指令调整和提示策略,这些策略可以引导它们使用逻辑推理并从信息中得出结论,采用所谓的“思维链”(CoT) 提示机制,该机制在生成最终答案之前将问题分解为一系列中间步骤,以及它们在教育、工程和金融等需要准确推理至关重要的复杂领域中的适用性。
以下是用于解决数学问题的 CoT 提示的一个简单示例。
问题:如果一打鸡蛋卖 4 美元,那么一个鸡蛋卖多少钱?
答案:一打鸡蛋意味着 12 个鸡蛋。如果 12 个鸡蛋卖 4 美元,那么每个鸡蛋卖 4 美元 ÷ 12 = 0.33 美元。所以答案是 33 美分。
这种循序渐进的提示鼓励模型通过中间步骤进行推理,然后再得出最终答案,从而获得更可靠、更可解释的输出。
推理 LLM 中的零样本与少样本学习
推理 LLM 可以采用多种学习方法来解决任务,而无需进行广泛的任务特定再训练。其中最常见的两种是零样本学习和少样本学习。零样本和少样本提示都是上下文学习的一种形式——这个术语用于描述语言模型如何使用相同提示(或“上下文”)中提供的示例和指令来推断如何执行任务,而无需更改底层模型权重。
在零样本学习中,LLM 仅基于其通用预训练来尝试完成任务,而不会在提示中看到有关目标任务的任何示例。此过程对于回答直接事实性问题、总结文本或分类等问题尤其普遍。
例如,假设用户要求 LLM“将这篇冗长的文章总结为三句话。”在零样本学习方法下,模型将直接尝试生成(逐字)输入文本的摘要,而无需在交互期间暴露于任何特定的文章摘要示例。
您可能已经猜到了,但零样本行为基本上就是让 LLM 在没有示例指导的情况下立即尝试回答用户的问题。虽然现代具有推理能力的 LLM 仍然可以根据提示的编写方式在零样本模式下应用结构化思维,但该过程完全依赖于通用预训练。
然而,正是通过少样本学习,推理 LLM 才真正脱颖而出。通过应用少样本学习,LLM 可以通过接触多个示例输入-输出对,超越简单的模式匹配,为模型提供必要的指导和细微之处,以更结构化、更符合上下文的方式处理任务。换句话说,通过示例,我们告诉模型我们希望其生成的响应看起来是什么样的。
回到我们之前总结文本的例子,一个用于相同任务的示例用户提示,基于少样本学习,如下所示(假设要总结的文章是作为附件提供的,例如)。
将以下文章总结为不超过三句话。这是我希望摘要的结构方式的两个示例。
示例 1
文章:“工业革命是历史上的一个重要转折点。它始于 18 世纪末的英国,并导致了全球重大的技术、社会经济和文化变革。”
摘要:“工业革命始于 18 世纪的英国,引发了广泛的技术和社会变革。”示例 2
文章:“气候变化正在导致全球气温稳步上升,导致极端天气事件增多、海平面上升和生物多样性丧失。科学家敦促各国政府采取紧急减排策略。”
摘要:“气候变化正在加速全球变暖和生态破坏,促使人们紧急呼吁减排。”现在,总结以下文章。
文章:[在此处插入用户的文本]
总结
为了说明不同的提示策略如何影响输出,这里是模型对同一任务(总结一篇短文)的行为的快速比较。
任务: 总结句子“月球因引力作用影响地球的潮汐。”
- 零样本: “月球导致地球潮汐。”
- 少样本: “地球的潮汐是由月球引力引起的。请参阅上面的类似摘要示例。”
- 思维链: “月球的引力作用于地球的海洋,产生潮汐隆起。因此,月球影响地球的潮汐。”
每种技术都提供了不同程度的简洁性、上下文敏感性和逻辑结构。
总结
总之,在少样本学习中,示例的目的是教模型在将产生响应的推理过程中遵循的预期模式。这不仅仅是展示模型需要理解的输入内容,还包括如何生成输出的示例。尽管有其优点,少样本提示也存在权衡。一个主要的限制是令牌长度限制:由于每个示例都必须与任务输入一起打包到同一个提示中,因此长示例或大量示例很容易超出模型限制。此外,少样本性能可能非常对格式敏感,因为即使是提示结构中的微小不一致也可能导致结果不一致。
在结束之前,我们不能不提其他可以通过用户提示的少样本学习发挥额外作用的推理过程示例:数学问题解决,如算术运算或简单方程式、法律文件摘要、医学诊断报告推理、代码生成、科学问答、多步逻辑谜题以及合同文件分析等。
暂无评论。