存档 | 注意力机制

构建类似 Llama-2 和 Llama-3 的仅解码器 Transformer 模型

作者： Adrian Tam 发表于 2025年8月12日分类：注意力机制 0

当今的大型语言模型是 Transformer 模型的一种简化形式。它们被称为仅解码器模型，因为其作用类似于 Transformer 的解码器部分，即根据输入的部分序列生成输出序列。从架构上讲，它们更接近 Transformer 模型的编码器部分。在这篇文章中 [...]

继续阅读

构建用于语言翻译的 Transformer 模型

作者： Adrian Tam 发表于 2025年8月4日分类：注意力机制 0

2017年推出的 Transformer 架构通过消除对循环神经网络的需求，彻底改变了语言翻译等序列到序列任务。它转而依赖自注意力机制来处理输入序列。在本文中，您将学习如何从零开始构建一个 Transformer 模型。具体来说，您将了解：自注意力机制如何处理输入序列，以及 Transformer [...]

继续阅读

构建带注意力机制的 Seq2Seq 模型用于语言翻译

作者： Adrian Tam 发表于 2025年8月6日分类：注意力机制 0

由 Bahdanau 等人在 2014 年引入的注意力机制，极大地改进了序列到序列 (seq2seq) 模型。在本文中，您将学习如何构建和训练一个带有注意力机制的 seq2seq 模型用于语言翻译，重点关注：为什么注意力机制至关重要，以及如何在 seq2seq 模型中实现注意力机制。让我们开始吧。概述本文 [...]

继续阅读

构建一个用于语言翻译的普通 Seq2Seq 模型

作者： Adrian Tam 发表于 2025年8月2日分类：注意力机制 0

序列到序列 (seq2seq) 模型是处理将一个序列转换为另一个序列（例如机器翻译）任务的强大架构。这些模型采用编码器-解码器架构，其中编码器处理输入序列，解码器根据编码器的输出生成输出序列。注意力机制是为 seq2seq 模型开发的，理解 seq2seq [...]

继续阅读

Transformer 模型中的跳跃连接

作者： Adrian Tam 发表于 2025年6月27日分类：注意力机制 0

Transformer 模型由堆叠的 Transformer 层组成，每个层包含一个注意力子层和一个前馈子层。这些子层不是直接连接的；相反，跳跃连接将输入与每个子层中处理过的输出相结合。在本文中，您将探讨 Transformer 模型中的跳跃连接。具体来说：为什么跳跃连接对于训练深度 [...]

继续阅读

Transformer 模型中的混合专家（Mixture of Experts）架构

作者： Adrian Tam 发表于 2025年8月3日分类：注意力机制 2

Transformer 模型已被证明在许多自然语言处理任务中非常有效。虽然通过增加维度和层数可以增强其能力，但这也显著增加了计算复杂性。混合专家 (MoE) 架构通过引入稀疏性提供了一个巧妙的解决方案，使模型能够高效扩展，而计算成本不会成比例增加。在本文中，您将 [...]

继续阅读

Transformer 模型中的线性层和激活函数

作者： Adrian Tam 发表于 2025年8月2日分类：注意力机制 0

注意力操作是 Transformer 模型的标志，但它们并非唯一的构建模块。线性层和激活函数同样至关重要。在本文中，您将了解到：为什么线性层和激活函数能够实现非线性变换，Transformer 模型中前馈网络的典型设计，以及常见的激活函数及其特性 [...]

继续阅读

Transformer 模型中的 LayerNorm 和 RMS Norm

作者： Adrian Tam 发表于 2025年6月23日分类：注意力机制 0

归一化层是 Transformer 模型中帮助稳定训练的关键组件。没有归一化，模型通常无法收敛或表现不佳。本文探讨了 LayerNorm、RMS Norm 及其变体，解释了它们的工作原理以及在现代语言模型中的实现。让我们开始吧。概述本文分为五个部分，它们是： [...]

继续阅读

Transformer 模型中注意力掩码（Attention Masking）的简明介绍

作者： Adrian Tam 发表于 2025年6月23日分类：注意力机制 0

Transformer 模型中的注意力机制需要处理各种约束，以防止模型关注某些位置。本文探讨了注意力掩码如何实现这些约束，以及它们在现代语言模型中的实现。让我们开始吧。概述本文分为四个部分，它们是：为什么需要注意力掩码，以及 [...] 的实现

继续阅读

victoriano-izquierdo-29Rh5DOS5Qs-unsplash

多头潜在注意力（Multi-Head Latent Attention, MLA）简明介绍

作者： Adrian Tam 发表于 2025年6月19日分类：注意力机制 0

并非所有 Transformer 模型都称为“大型语言模型”，因为您可以使用 Transformer 架构构建一个非常小的模型。真正大型的 Transformer 模型通常不适合在家中使用，因为它们太大，无法装入单台计算机，而且没有 GPU 集群运行起来太慢。最近的 [...]

继续阅读

1 2 … 5 下一页 →