当今的大型语言模型是 Transformer 模型的一种简化形式。它们被称为 decoder-only 模型,因为它们的作用类似于 Transformer 的 decoder 部分,该部分在给定部分序列作为输入时会生成输出序列。从架构上讲,它们更接近 Transformer 模型的 encoder 部分。在这篇 […]

当今的大型语言模型是 Transformer 模型的一种简化形式。它们被称为 decoder-only 模型,因为它们的作用类似于 Transformer 的 decoder 部分,该部分在给定部分序列作为输入时会生成输出序列。从架构上讲,它们更接近 Transformer 模型的 encoder 部分。在这篇 […]
Transformer 架构于 2017 年推出,通过消除对循环神经网络的需求,彻底改变了序列到序列的任务,例如语言翻译。相反,它依靠自注意力机制来处理输入序列。在本文中,您将学习如何从头开始构建 Transformer 模型。特别是,您将了解:自注意力如何处理输入序列 Transformer […]
注意力机制由 Bahdanau 等人在 2014 年提出,显著改进了序列到序列(seq2seq)模型。在本文中,您将学习如何构建和训练一个带有注意力机制的 seq2seq 模型用于语言翻译,重点关注:为什么注意力机制至关重要如何在 seq2seq 模型中实现注意力 让我们开始吧。概述本文分为 […]
序列到序列(seq2seq)模型是用于将一个序列转换为另一个序列的任务(如机器翻译)的强大架构。这些模型采用编码器-解码器架构,其中编码器处理输入序列,解码器根据编码器的输出生成输出序列。注意力机制是为 seq2seq 模型开发的,理解 seq2seq […]
Transformer 模型由堆叠的 Transformer 层组成,每层包含一个注意力子层和一个前馈子层。这些子层不直接连接;而是使用残差连接(skip connections)将每个子层的输入与处理后的输出结合起来。在本文中,您将探讨 Transformer 模型中的残差连接。具体来说:为什么残差连接对于训练深度[…]
Transformer 模型在许多 NLP 任务中都非常有效。虽然通过增加维度和层数来扩展可以提高其能力,但这也会显著增加计算复杂度。混合专家(MoE)架构通过引入稀疏性提供了一个优雅的解决方案,使得模型能够高效地扩展,而不会不成比例地增加计算成本。在本文中,您 […]
注意力操作是 Transformer 模型的重要组成部分,但它们并不是唯一的构建块。线性层和激活函数同样至关重要。在本文中,您将了解:为什么线性层和激活函数能够实现非线性变换 Transformer 模型中前馈网络的典型设计常见的激活函数及其特性 […]
归一化层是 Transformer 模型中的关键组成部分,有助于稳定训练。如果没有归一化,模型往往无法收敛或表现不佳。本文探讨了 LayerNorm、RMS Norm 及其变体,解释了它们的工作原理以及在现代语言模型中的实现。让我们开始吧。概述本文分为五个部分;它们是:[…]
Transformer 模型中的注意力机制需要处理各种约束,以防止模型关注某些位置。本文探讨了注意力掩码(attention masking)如何实现这些约束以及它们在现代语言模型中的实现。让我们开始吧。概述本文分为四个部分;它们是:为什么需要注意力掩码实现 […]
并非所有的 Transformer 模型都被称为“大型语言模型”,因为您可以使用 Transformer 架构构建一个非常小的模型。真正大型的 Transformer 模型由于太大而无法放入单台计算机,并且在没有 GPU 集群的情况下运行速度太慢,因此在家中使用它们通常是不切实际的。最近的 […]