作者归档 | Adrian Tam

构建类似 Llama-2 和 Llama-3 的仅解码器 Transformer 模型

作者： Adrian Tam ，发布于 2025年8月18日，分类：构建 Transformer 模型 0

如今的大型语言模型是 Transformer 模型的一种简化形式。它们被称为“仅解码器”（decoder-only）模型，因为它们的作用类似于 Transformer 的解码器部分，即在给定部分序列作为输入的情况下生成输出序列。从架构上看，它们更接近 Transformer 模型的编码器部分。在这篇文章中[…]

继续阅读

构建用于语言翻译的 Transformer 模型

作者： Adrian Tam ，发布于 2025年8月18日，分类：构建 Transformer 模型 0

2017年推出的 Transformer 架构彻底改变了语言翻译等序列到序列（sequence-to-sequence）任务，因为它不再需要循环神经网络。相反，它依靠自注意力机制来处理输入序列。在本文中，您将学习如何从零开始构建一个 Transformer 模型。具体来说，您将了解：自注意力机制如何处理输入序列，Transformer 如何 […]

继续阅读

构建带注意力机制的 Seq2Seq 模型用于语言翻译

作者： Adrian Tam ，发布于 2025年8月18日，分类：构建 Transformer 模型 0

由 Bahdanau 等人于2014年引入的注意力机制，显著改进了序列到序列（seq2seq）模型。在本文中，您将学习如何构建和训练一个带有注意力机制的 seq2seq 模型用于语言翻译，重点关注：为什么注意力机制至关重要，如何在 seq2seq 模型中实现注意力机制。让我们开始吧。概述本文 […]

继续阅读

构建一个用于语言翻译的普通 Seq2Seq 模型

作者： Adrian Tam ，发布于 2025年8月18日，分类：构建 Transformer 模型 0

序列到序列（seq2seq）模型是一种强大的架构，适用于将一个序列转换为另一个序列的任务，例如机器翻译。这些模型采用编码器-解码器架构，其中编码器处理输入序列，解码器根据编码器的输出生成输出序列。注意力机制是为 seq2seq 模型开发的，理解 seq2seq 模型如何 […]

继续阅读

Transformer 模型中的跳跃连接

作者： Adrian Tam ，发布于 2025年8月18日，分类：构建 Transformer 模型 0

Transformer 模型由堆叠的 Transformer 层组成，每层包含一个注意力子层和一个前馈子层。这些子层不是直接连接的；相反，残差连接（skip connections）将每个子层的输入与处理后的输出结合起来。在本文中，您将探讨 Transformer 模型中的残差连接。具体包括：为什么残差连接对于训练深度 […] 至关重要

继续阅读