存档 | 注意力机制

sorasak-_UIN-pFfJ7c-unsplash

构建用于语言翻译的 Transformer 模型

2017年推出的 Transformer 架构通过消除对循环神经网络的需求,彻底改变了语言翻译等序列到序列任务。它转而依赖自注意力机制来处理输入序列。在本文中,您将学习如何从零开始构建一个 Transformer 模型。具体来说,您将了解:自注意力机制如何处理输入序列,以及 Transformer [...]

继续阅读
esther-t-ZVsAufJ60Mc-unsplash

构建带注意力机制的 Seq2Seq 模型用于语言翻译

由 Bahdanau 等人在 2014 年引入的注意力机制,极大地改进了序列到序列 (seq2seq) 模型。在本文中,您将学习如何构建和训练一个带有注意力机制的 seq2seq 模型用于语言翻译,重点关注:为什么注意力机制至关重要,以及如何在 seq2seq 模型中实现注意力机制。让我们开始吧。概述 本文 [...]

继续阅读
pourya-gohari-c2Z_uo7nyC0-unsplash

构建一个用于语言翻译的普通 Seq2Seq 模型

序列到序列 (seq2seq) 模型是处理将一个序列转换为另一个序列(例如机器翻译)任务的强大架构。这些模型采用编码器-解码器架构,其中编码器处理输入序列,解码器根据编码器的输出生成输出序列。注意力机制是为 seq2seq 模型开发的,理解 seq2seq [...]

继续阅读
david-emrich-9a0S_8bU0lo-unsplash

Transformer 模型中的跳跃连接

Transformer 模型由堆叠的 Transformer 层组成,每个层包含一个注意力子层和一个前馈子层。这些子层不是直接连接的;相反,跳跃连接将输入与每个子层中处理过的输出相结合。在本文中,您将探讨 Transformer 模型中的跳跃连接。具体来说:为什么跳跃连接对于训练深度 [...]

继续阅读
realfish-0MvkW2nYysk-unsplash

Transformer 模型中的混合专家(Mixture of Experts)架构

Transformer 模型已被证明在许多自然语言处理任务中非常有效。虽然通过增加维度和层数可以增强其能力,但这也显著增加了计算复杂性。混合专家 (MoE) 架构通过引入稀疏性提供了一个巧妙的解决方案,使模型能够高效扩展,而计算成本不会成比例增加。在本文中,您将 [...]

继续阅读
duong-thinh-ZTMPQW5GSZM-unsplash

Transformer 模型中的线性层和激活函数

注意力操作是 Transformer 模型的标志,但它们并非唯一的构建模块。线性层和激活函数同样至关重要。在本文中,您将了解到:为什么线性层和激活函数能够实现非线性变换,Transformer 模型中前馈网络的典型设计,以及常见的激活函数及其特性 [...]

继续阅读
redd-francisco-mE_yfvS0TSY-unsplash

Transformer 模型中的 LayerNorm 和 RMS Norm

归一化层是 Transformer 模型中帮助稳定训练的关键组件。没有归一化,模型通常无法收敛或表现不佳。本文探讨了 LayerNorm、RMS Norm 及其变体,解释了它们的工作原理以及在现代语言模型中的实现。让我们开始吧。概述 本文分为五个部分,它们是: [...]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。