存档 | 注意力机制

如何在 TensorFlow 和 Keras 中从零开始实现缩放点积注意力

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 7

在熟悉了 Transformer 模型及其注意力机制的理论之后，我们将从实现缩放点积注意力开始，逐步实现一个完整的 Transformer 模型。缩放点积注意力是多头注意力的一个组成部分，而多头注意力又是 […] 的一个重要组成部分。

作者： Mehreen Saeed 发布于 2023 年 1 月 6 日分类： Attention 17

在第 1 部分“Transformer 模型中位置编码的温和介绍”中，我们讨论了 Transformer 模型的位置编码层。我们还展示了如何在 Python 中自己实现这个层及其函数。在本教程中，你将在 Keras 和 Tensorflow 中实现位置编码层。然后你可以使用这个 […]

作者： Mehreen Saeed 发布于 2023 年 1 月 6 日分类： Attention 45

在语言中，单词的顺序及其在句子中的位置确实很重要。如果单词重新排序，整个句子的含义可能会改变。在实现 NLP 解决方案时，循环神经网络具有处理序列顺序的内置机制。然而，Transformer 模型不使用循环或 […]

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 26

我们已经熟悉了 Transformer 注意力机制为神经机器翻译实现的自注意力概念。现在我们将把重点转移到 Transformer 架构本身的细节上，以发现如何在不依赖循环和卷积的情况下实现自注意力。在本教程中，[…]

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 18

在 Transformer 模型引入之前，神经机器翻译的注意力机制是通过基于 RNN 的编码器-解码器架构实现的。Transformer 模型通过取消循环和卷积，转而完全依赖自注意力机制，彻底改变了注意力的实现方式。在本教程中，我们将首先重点介绍 Transformer 注意力机制 […]

作者： Mehreen Saeed 发布于 2023 年 1 月 6 日分类： Attention 18

本教程旨在帮助任何希望了解循环神经网络（RNN）如何工作以及如何通过 Keras 深度学习库使用它们的人。虽然 Keras 库提供了解决问题和构建应用程序所需的所有方法，但了解所有工作原理也很重要。[…]

作者： Mehreen Saeed 发布于 2023 年 1 月 6 日分类： Attention 11

在处理序列或时间序列数据时，传统的前馈网络无法用于学习和预测。需要一种机制来保留过去或历史信息以预测未来值。循环神经网络，简称 RNN，是传统前馈人工神经网络的一种变体，可以处理序列 […]

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 10

Luong 注意力机制旨在对 Bahdanau 模型进行多项改进，用于神经机器翻译，特别是引入了两类新的注意力机制：一种全局方法关注所有源词，一种局部方法仅关注选定的词子集来预测目标句子。在本教程中，[…]

作者： Stefania Cristina 发布于 2023 年 1 月 6 日分类： Attention 7

传统的机器翻译编码器-解码器架构将每个源句子编码成一个固定长度的向量，无论其长度如何，解码器然后会从中生成翻译。这使得神经网络难以处理长句子，本质上导致了性能瓶颈。Bahdanau 注意力机制被提出以解决性能问题 […]

作者： Mehreen Saeed 发布于 2023 年 1 月 6 日分类： Attention 57

深度学习网络在过去几年中获得了极大的普及。“注意力机制”与深度学习网络集成，以提高其性能。在网络中添加注意力组件在机器翻译、图像识别、文本摘要和类似应用等任务中显示出显著的改进。本教程展示了如何添加 […]