Transformer 模型 作者: Stefania Cristina 发布于 2023年1月6日 类别: 注意力机制 26 我们已经熟悉了由Transformer注意力机制实现的用于神经网络机器翻译的自注意力概念。现在我们将把重点转移到Transformer架构本身的细节,以发现如何在不依赖循环和卷积的情况下实现自注意力。在本教程中,[...] 继续阅读
Transformer 注意力机制 作者: Stefania Cristina 发布于 2023年1月6日 类别: 注意力机制 18 在Transformer模型引入之前,用于神经网络机器翻译的注意力机制是由基于RNN的编码器-解码器架构实现的。Transformer模型通过摒弃循环和卷积,转而完全依赖自注意力机制,彻底改变了注意力机制的实现方式。在本教程中,我们将首先关注Transformer注意力机制[...] 继续阅读
从零开始的注意力机制 作者: Stefania Cristina 发布于 2023年1月6日 类别: 注意力机制 27 引入注意力机制是为了提高编码器-解码器模型在机器翻译方面的性能。注意力机制背后的思想是,通过所有编码输入向量的加权组合,以灵活的方式使解码器能够利用输入序列中最相关的部分,其中最相关的[...] 继续阅读