作者归档 | Adrian Tam

多头注意力（Multi-Head Attention）和分组查询注意力（Grouped-Query Attention）的初步介绍

作者 Adrian Tam 于 2025年8月18日发布在构建 Transformer 模型 0

语言模型需要理解序列中单词之间的关系，无论它们相距多远。本文将探讨注意力机制如何实现这一功能，以及它们在现代语言模型中的各种实现方式。让我们开始吧。概述本文分为三个部分：为什么需要注意力注意力操作多头注意力 (MHA) […]

继续阅读

位置编码中的插值与使用 YaRN 扩展更长的上下文窗口

作者 Adrian Tam 于 2025年8月18日发布在构建 Transformer 模型 0

Transformer 模型通常以固定的序列长度进行训练，但在推理时，它们可能需要处理不同长度的序列。这带来了挑战，因为位置编码是根据序列长度计算的。模型可能会在处理未在训练中遇到过的位置编码时遇到困难。处理可变序列长度的能力 […]

继续阅读

Transformer模型中的位置编码

作者 Adrian Tam 于 2025年8月18日发布在构建 Transformer 模型 0

自然语言处理 (NLP) 随着基于 Transformer 的模型而得到了显著发展。这些模型的一个关键创新是位置编码，它有助于捕捉语言的顺序性。在本文中，您将学习：为什么 Transformer 模型需要位置编码不同类型的位置编码及其特性如何实现各种位置 […]

继续阅读

语言模型中的词嵌入

作者 Adrian Tam 于 2025年8月18日发布在构建 Transformer 模型 0

自然语言处理 (NLP) 长期以来一直是计算机科学中的一个基础领域。然而，随着词嵌入的引入，其发展轨迹发生了戏剧性的改变。在词嵌入出现之前，NLP 主要依赖于基于规则的方法，将单词视为离散的标记。通过词嵌入，计算机获得了通过向量空间表示理解语言的能力。在本文中， […]

继续阅读

语言模型中的分词器 (Tokenizers)

作者 Adrian Tam 于 2025年8月18日发布在构建 Transformer 模型 0

分词 (Tokenization) 是自然语言处理 (NLP) 中一个至关重要的预处理步骤，它将原始文本转换为语言模型可以处理的标记。现代语言模型使用复杂的分词算法来处理人类语言的复杂性。在本文中，我们将探讨现代 LLM 中常用的分词算法、它们的实现以及如何 […]

继续阅读

pexels-stephan-streuders-2134979-3767837

Transformer 模型中的编码器和解码器

作者 Adrian Tam 于 2025年8月18日发布在构建 Transformer 模型 0

Transformer 模型凭借其强大的架构革新了自然语言处理 (NLP)。虽然原始的 Transformer 论文引入了完整的编码器-解码器模型，但为了服务于不同的目的，也出现了该架构的变体。在本文中，我们将探讨不同类型的 Transformer 模型及其应用。让我们开始吧。概述本文分为 […]

继续阅读

在 Transformers 库中使用 Auto Classes

作者 Adrian Tam 于 2025年5月15日发布在 Hugging Face Transformers 1

在 transformers 库中，自动类 (auto classes) 是一项关键设计，它允许您使用预训练模型，而无需关心底层模型架构。这使得您的代码更加简洁，易于维护。例如，您可以通过更改模型名称轻松地在不同的模型架构之间切换；甚至代码 […]

继续阅读

注意力机制和 Transformer 模型简介

作者 Adrian Tam 于 2025年8月18日发布在构建 Transformer 模型 4

Transformer 是一种深度学习架构，在自然语言处理 (NLP) 任务中非常流行。它是一种旨在处理序列数据（如文本）的神经网络。在本文中，我们将探讨注意力和 Transformer 架构的概念。具体来说，您将学习：Transformer 模型解决了哪些问题 […]

继续阅读

Transformers 库温和入门

作者 Adrian Tam 于 2025年5月15日发布在 Hugging Face Transformers 0

Transformers 是一种机器学习模型架构，它使用注意力机制来处理数据。许多模型都基于这种架构，例如 GPT、BERT、T5 和 Llama。其中很多模型彼此之间都非常相似。虽然您可以使用 PyTorch 或 TensorFlow 在 Python 中构建自己的模型，但 Hugging Face 发布了 […]

继续阅读

下一阶段数据科学（7 天迷你课程）

作者 Adrian Tam 于 2025年3月11日发布在中级数据科学 6

数据科学最初被称为统计分析，因为它是在它被命名之前，从数据中提取信息的主要方法。随着技术的最新进展，机器学习模型被引入，扩展了我们分析和理解数据能力。有许多可用的机器学习模型，但您不需要 […]

继续阅读

← 上一页 1 2 3 … 13 下一页 →