存档 | 构建 Transformer 模型

构建类似 Llama-2 和 Llama-3 的仅解码器 Transformer 模型

作者 Adrian Tam 于 2025年8月18日发布于构建 Transformer 模型 0

当今的大型语言模型是 Transformer 模型的一种简化形式。它们被称为 decoder-only 模型，因为它们的作用类似于 Transformer 的 decoder 部分，该部分在给定部分序列作为输入时会生成输出序列。从架构上讲，它们更接近 Transformer 模型的 encoder 部分。在这篇 […]

继续阅读

构建用于语言翻译的 Transformer 模型

作者 Adrian Tam 于 2025年8月18日发布于构建 Transformer 模型 0

Transformer 架构于 2017 年推出，通过消除对循环神经网络的需求，彻底改变了序列到序列的任务，例如语言翻译。相反，它依靠自注意力机制来处理输入序列。在本文中，您将学习如何从头开始构建 Transformer 模型。特别是，您将了解：自注意力如何处理输入序列 Transformer […]

继续阅读

构建带注意力机制的 Seq2Seq 模型用于语言翻译

作者 Adrian Tam 于 2025年8月18日发布于构建 Transformer 模型 0

注意力机制由 Bahdanau 等人在 2014 年提出，显著改进了序列到序列（seq2seq）模型。在本文中，您将学习如何构建和训练一个带有注意力机制的 seq2seq 模型用于语言翻译，重点关注：为什么注意力机制至关重要如何在 seq2seq 模型中实现注意力让我们开始吧。概述本文分为 […]

继续阅读

构建一个用于语言翻译的普通 Seq2Seq 模型

作者 Adrian Tam 于 2025年8月18日发布于构建 Transformer 模型 0

序列到序列（seq2seq）模型是用于将一个序列转换为另一个序列的任务（如机器翻译）的强大架构。这些模型采用编码器-解码器架构，其中编码器处理输入序列，解码器根据编码器的输出生成输出序列。注意力机制是为 seq2seq 模型开发的，理解 seq2seq […]

继续阅读

Transformer 模型中的跳跃连接

作者 Adrian Tam 于 2025年8月18日发布于构建 Transformer 模型 0

Transformer 模型由堆叠的 Transformer 层组成，每层包含一个注意力子层和一个前馈子层。这些子层不直接连接；而是使用残差连接（skip connections）将每个子层的输入与处理后的输出结合起来。在本文中，您将探讨 Transformer 模型中的残差连接。具体来说：为什么残差连接对于训练深度[…]

继续阅读