存档 | 注意力机制

ijaz rafi photo-1551102076-9f8bb5f3f897

Keras 中的 Transformer 位置编码层,第 2 部分

在第 1 部分“Transformer 模型中位置编码的温和介绍”中,我们讨论了 Transformer 模型的位置编码层。我们还展示了如何在 Python 中自己实现这个层及其函数。在本教程中,你将在 Keras 和 Tensorflow 中实现位置编码层。然后你可以使用这个 […]

继续阅读
transformer_cover

Transformer 模型

我们已经熟悉了 Transformer 注意力机制为神经机器翻译实现的自注意力概念。现在我们将把重点转移到 Transformer 架构本身的细节上,以发现如何在不依赖循环和卷积的情况下实现自注意力。在本教程中,[…]

继续阅读
transformer_cover

Transformer 注意力机制

在 Transformer 模型引入之前,神经机器翻译的注意力机制是通过基于 RNN 的编码器-解码器架构实现的。Transformer 模型通过取消循环和卷积,转而完全依赖自注意力机制,彻底改变了注意力的实现方式。在本教程中,我们将首先重点介绍 Transformer 注意力机制 […]

继续阅读
IMG_9433

理解 Keras 中的简单循环神经网络

本教程旨在帮助任何希望了解循环神经网络(RNN)如何工作以及如何通过 Keras 深度学习库使用它们的人。虽然 Keras 库提供了解决问题和构建应用程序所需的所有方法,但了解所有工作原理也很重要。[…]

继续阅读
IMG_9527

循环神经网络及其数学原理简介

在处理序列或时间序列数据时,传统的前馈网络无法用于学习和预测。需要一种机制来保留过去或历史信息以预测未来值。循环神经网络,简称 RNN,是传统前馈人工神经网络的一种变体,可以处理序列 […]

继续阅读
luong_cover

Luong 注意力机制

Luong 注意力机制旨在对 Bahdanau 模型进行多项改进,用于神经机器翻译,特别是引入了两类新的注意力机制:一种全局方法关注所有源词,一种局部方法仅关注选定的词子集来预测目标句子。在本教程中,[…]

继续阅读
bahdanau_cover

Bahdanau 注意力机制

传统的机器翻译编码器-解码器架构将每个源句子编码成一个固定长度的向量,无论其长度如何,解码器然后会从中生成翻译。这使得神经网络难以处理长句子,本质上导致了性能瓶颈。Bahdanau 注意力机制被提出以解决性能问题 […]

继续阅读

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。