存档 | Transformer 模型构建

多头注意力（Multi-Head Attention）和分组查询注意力（Grouped-Query Attention）的初步介绍

作者 Adrian Tam 于 2025 年 8 月 18 日发布于 Transformer 模型构建 0

语言模型需要理解序列中单词之间的关系，无论它们之间的距离如何。本文将探讨注意力机制如何实现这一能力，以及它们在现代语言模型中的各种实现方式。让我们开始吧。概述本文分为三个部分；它们是：为何需要注意力注意力操作多头注意力 (MHA) […]

继续阅读

位置编码中的插值与使用 YaRN 扩展更长的上下文窗口

作者 Adrian Tam 于 2025 年 8 月 18 日发布于 Transformer 模型构建 0

Transformer 模型使用固定的序列长度进行训练，但在推理过程中，它们可能需要处理不同长度的序列。这会带来挑战，因为位置编码是根据序列长度计算的。模型可能会难以处理在训练期间未遇到的位置编码。处理不同序列长度的能力是 […]

继续阅读

Transformer模型中的位置编码

作者 Adrian Tam 于 2025 年 8 月 18 日发布于 Transformer 模型构建 0

Transformer 模型通过其强大的架构彻底改变了自然语言处理 (NLP)。虽然最初的 Transformer 论文引入了完整的编码器-解码器模型，但为了实现不同的目的，也出现了该架构的变体。在本文中，我们将探讨不同类型的 Transformer 模型及其应用。让我们开始吧。概述本文分为 […]

继续阅读

语言模型中的词嵌入

作者 Adrian Tam 于 2025 年 8 月 18 日发布于 Transformer 模型构建 0

自然语言处理 (NLP) 长期以来一直是计算机科学中的一个基本领域。然而，随着词嵌入的引入，其发展轨迹发生了巨大变化。在词嵌入之前，NLP 主要依赖于将单词视为离散标记的基于规则的方法。通过词嵌入，计算机获得了通过向量空间表示来理解语言的能力。在本文中， […]

继续阅读

语言模型中的分词器 (Tokenizers)

作者 Adrian Tam 于 2025 年 8 月 18 日发布于 Transformer 模型构建 0

Tokenization 是自然语言处理 (NLP) 中的一个关键预处理步骤，它将原始文本转换为语言模型可以处理的标记。现代语言模型使用复杂的 Tokenization 算法来处理人类语言的复杂性。在本文中，我们将探讨现代 LLM 中使用的常见 Tokenization 算法、它们的实现方式以及 […]

继续阅读

pexels-stephan-streuders-2134979-3767837

Transformer 模型中的编码器和解码器

作者 Adrian Tam 于 2025 年 8 月 18 日发布于 Transformer 模型构建 0

继续阅读

注意力机制和 Transformer 模型简介

作者 Adrian Tam 于 2025 年 8 月 18 日发布于 Transformer 模型构建 4

Transformer 是一种流行的自然语言处理 (NLP) 任务的深度学习架构。它是一种神经网络，旨在处理文本等序列数据。在本文中，我们将探讨注意力和 Transformer 架构的概念。具体来说，您将了解：Transformer 模型解决了哪些问题 […]

继续阅读

← 上一页 1 2